Многоразовый парсинг, порядок действий?

Discussion in 'Решение различных задач по парсингу' started by alexts, Oct 25, 2012.

  1. alexts

    alexts New Member Пользователи

    Joined:
    Oct 16, 2012
    Messages:
    5
    Вкратце:
    Весьма немалый сайт-источник.
    1.Собираем сканером ссылки (занимает операция пару суток минимум, если не прятатся за тор),
    2. добавляем отобранное к списку парсинга.
    3. парсим.

    Проходит некоторое время - нужно обновить информацию.
    Как не сканируя по новой ссылки ( те пропустить уже полученное) собрать только новые и отпарсить их?
    С загруженным контентом понятно, а вот как сканирование не повторять с нуля?

    Может вопрос и ламерский, но хорошо бы внятный порядок действий для начинающего.
     
  2. Павел

    Павел New Member Пользователи

    Joined:
    Oct 23, 2012
    Messages:
    13
    где то в программе встречал опцию о сохранении ссылок в файл, чтоб в дальнейшем не сканить.
     
  3. kagorec

    kagorec Администратор Staff Member Администратор

    Joined:
    Jan 3, 2011
    Messages:
    4,442
    Location:
    Latvia
    Буквально аналогичная ситуация была:
    Зайдите в сканнер, нажмите сначало кнопку "добавить ссылки из списка парсинга...."
    п.с. Пояснение в картинке _http://i.imgur.com/IUR7K.png
     

Share This Page