Есть набор ссылок с сайта - как его обновить

Тема в разделе "Фильтры ссылок", создана пользователем Gav31337, 25 дек 2013.

  1. Gav31337

    Gav31337 New Member Пользователи

    Регистрация:
    30 авг 2013
    Сообщения:
    17
    Парсил сайт с товаром 50 000 наименований. Прошло время, на сайте:
    какие то товары добавились (т.е. у меня нет их)
    какие то товары остались (есть у меня)
    какие то товары удалились (есть у меня, то чего уже нет у них)

    на данный момент на сайте 60 000.
    Как мне имея мои 50 000 ссылок:
    1. вычислить какие из них уже не актуальны
    2. вычислить каких ссылок у меня небыло, и спарсить их.
     
  2. СТЕПАН

    СТЕПАН New Member Супер Модератор

    Регистрация:
    10 мар 2013
    Сообщения:
    51
    Адрес:
    Казахстан
    Gav31337, спарси 60к затем вычти из них свои 50к и получишь
    вычитать ссылки можно утилитой _http://newox.ru/kwk/KeyWordKeeper_5B5.exe

    далее из 50к вычти 60к ссылок ---> в итоге получишь мертвые ссылки

    Все просто ;)
     
  3. Gav31337

    Gav31337 New Member Пользователи

    Регистрация:
    30 авг 2013
    Сообщения:
    17
    ну это можно и в экселе сравнить 2 столбца на несовпдения, получив в одном все новые, а в другом все мертвые.
    Вот только на 50к товаров - эксель уже начинает подумывать "а работать ли".

    Просто в программе настроек куча, думал как то более автоматизированно сделать это. Например поле типа маски ссылок которые добавлять не надо - в него вносишь все ссылки что уже были. в другом поле добавляются все ссылки не подходящие по поле маски. и еще одно поле куда выписываются все ссылки из поля маски которые небыли обнаружены в момент парсинга ссылок на сайте.
     
  4. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.432
    Адрес:
    Latvia
    Имея б/у ссылки, сохраните их в текстовом файле, затем этот текстовой файл подключите к программе, в итоге спарсите только новый товар.
     
  5. Азамат

    Азамат New Member Пользователи

    Регистрация:
    26 янв 2014
    Сообщения:
    8
    Подскажите!

    У меня есть файл с сохраненными ссылками. Я указываю тот же самый файл в настройках фильтрации (файл с загруженными ранее ссылками). После чего программа перестает работать.

    Насколько я понял из-за того, что сначала идет парсинг ссылок, ссылки записываются в файл, скажем 1.txt

    Затем при парсинге контента срабатывает фильтр который берет информацию с того же файла 1.txt (пути/расположение у файлов одинаковые).

    Приходиться каждый раз, перед очередным парсингом копировать файл с ссылками и потом начинать парсинг, что не очень удобно.

    Что можно придумать в это случае?
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Что значит программа перестает работать?
     
  7. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.432
    Адрес:
    Latvia
    Парсер записывает в текстовик +еще одну строку (ссылку) от страницы которую удачно спарсил.
    Если у вас есть список ссылок которые НЕ надо парсить - просто добавить в этот текстовик и перед парсингом смерит список и пропуститт указанные.
     
  8. Азамат

    Азамат New Member Пользователи

    Регистрация:
    26 янв 2014
    Сообщения:
    8
    Попробую поподробнее!

    Есть файл куда я записываю спарсенные ссылки. Лежит он на C:\links.txt
    Я спарсил некоторое количество ссылок.

    При повторном парсинге указываю в настройках фильтрации (файл с загруженными ранее ссылками), тот же C:\links.txt

    Ссылки парсятся, а контент нет, тк срабатывает фильтр.
     
  9. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Вполне логично, все работает, как и задумано! В чем вопрос я так и не понял и проблема в чем?
     
  10. Азамат

    Азамат New Member Пользователи

    Регистрация:
    26 янв 2014
    Сообщения:
    8
    Проблема вот в чем:

    Так как новости на доноре обновляются довольно часто, есть необходимость парсить сайт несколько раз в день. Это я делаю при помощи планировщика и в конце дня переношу на свой сайт.

    При парсинге зачастую попадаются дубли статей. Как избавится от них (дублей) при парсинге с планировщиком?

    Что я для этого сделал описал выше, но не выходит.

    С ув.
     
  11. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Если ничего не парсится с подключенным файлом для отсеивания того, что уже спарсилось - значит нет ничего нового (нет новых записей)!

    Как вам помочь в этом случае - я не знаю =) и с чем вам помочь - я тоже не знаю, проблема только в том, что вам кажется, что какая-то проблема есть.

    Я могу ошибаться, написал, что думаю. Если что простите...
     
  12. Азамат

    Азамат New Member Пользователи

    Регистрация:
    26 янв 2014
    Сообщения:
    8
    Я еще раз все просмотрел, подумал... еще посмотрел, еще раз "порсакинул мозгами".... и меня осенило...:clap::clap::clap:
    Всем спасибо!
     
  13. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Слава Богу! =)
    Обращайтесь!
     
  14. hyfvmitw

    hyfvmitw New Member Пользователи

    Регистрация:
    26 май 2014
    Сообщения:
    41
    Здравствуйте уважаемые!!! Напишу свой вопрос здесь, так как эта ветка наиболее соответствует моему вопросу.
    А вопрос вот в чем: у меня есть набор ссылок одного сайта с товарами (около 4000) некоторые товары уже не существуют, подскажите как с помощью CD найти ссылки на отсутствующие товары чтобы их удалить? И еще, хотелось бы работать именно с этим набором ссылок, а не собирать новые. Заранее спасибо!
     
  15. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Оставить шаблон вывода (ctrl+2) пустым. А в ctrl+6 добавить <CD_DOCURL!> и парсить во вкладке "Контент".

    С уважением к вам, Сергей...
     
  16. hyfvmitw

    hyfvmitw New Member Пользователи

    Регистрация:
    26 май 2014
    Сообщения:
    41
    Как оказалось этот метод не срабатывает, сайт донор выдает страничку "Товар не найден"
    как образец даю ссылку на товар которого теперь нету
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
     
  17. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Следует сразу указывать все детали, чтобы не делать лишнюю работу.

    У меня данная ссылка загружается в программе вот так:
    Что позволяет использовать ранее указанный мной метод.

    В подкрепление слов прилагаю файл проекта (меню - файл - загрузить проект).

    С уважением к вам, Сергей...
     

    Вложения:

  18. hyfvmitw

    hyfvmitw New Member Пользователи

    Регистрация:
    26 май 2014
    Сообщения:
    41
    Прилагаю файл проекта, там две ссылки, одна с действующим товаром, вторая с отсутствующим товаром, если товар действующий то [DOCSOURCE] выводит мне в файл весь код странички, а если товар отсутствует то получается результат который мне нужен, что я там делаю не так?
     

    Вложения:

  19. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Читайте, пожалуйста, еще раз, что я вам писал ранее:
     
  20. hyfvmitw

    hyfvmitw New Member Пользователи

    Регистрация:
    26 май 2014
    Сообщения:
    41
    Уважаемый Сергей!!! Я все внимательно прочитал, не стоило так выделять текст, во первых с пустым шаблоном вывода у меня такой фокус не получается, а во вторых в приложенном Вами файле проекта, который должен был подтвердить Ваши слова, в шаблоне вывода присутствует [DOCSOURCE], я посчитал что это решение проблемы ...
     

Поделиться этой страницей