Как парсить новые товары в повторяющихся границах парсинга

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем artproma, 29 июл 2014.

  1. artproma

    artproma New Member Пользователи

    Регистрация:
    3 фев 2013
    Сообщения:
    32
    Собственно вопрос:
    Есть сайт, для него я настроил спарсивание по повторяющимся границам.
    Иногда там появляются обновления. Нужно парсить только их.
    Как объяснить программе, чтоб она смотрела в какой-то файл и обращала внимание только на новые позиции, а старые не сканировала?
    Ну и заодно, как заполнять этот самый файл?
     
  2. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Доброй ночи!
    В правой части программы есть чудесное меню: найдите пункт отмеченный на картинке.
    Как формировать файл: каждый урл с новой строки.
     

    Вложения:

  3. artproma

    artproma New Member Пользователи

    Регистрация:
    3 фев 2013
    Сообщения:
    32
    Таким образом в файл заносится 1-на ссылка - та страница, на которой и есть повторяющиеся границы..
    Мне интересно следующее. Сама страница динамическая, на ней идет обновление материала (блог). Нужно парсить именно их.
    Как быть с таким вариантом?
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    У товаров разве нет собственных отдельных страниц? О каком сайте идет речь?
     
  5. artproma

    artproma New Member Пользователи

    Регистрация:
    3 фев 2013
    Сообщения:
    32
    Последнее редактирование: 29 июл 2014
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Нужно время, спасибо...
     
  7. artproma

    artproma New Member Пользователи

    Регистрация:
    3 фев 2013
    Сообщения:
    32
    Мне-то за что?
    Работку подкинул..
    На сколько я понимаю стандартными методами не получится
    Тут надо действовать по другому:
    Парсить сами страницы и с них брать всю инфу... Но не будет времени ролика и картинки.
    Таким образом будет работать файл с обработанными ссылками.
     

Поделиться этой страницей