Многоразовый парсинг, порядок действий?

Тема в разделе "Решение различных задач по парсингу", создана пользователем alexts, 25 окт 2012.

  1. alexts

    alexts New Member Пользователи

    Регистрация:
    16 окт 2012
    Сообщения:
    5
    Симпатии:
    0
    Вкратце:
    Весьма немалый сайт-источник.
    1.Собираем сканером ссылки (занимает операция пару суток минимум, если не прятатся за тор),
    2. добавляем отобранное к списку парсинга.
    3. парсим.

    Проходит некоторое время - нужно обновить информацию.
    Как не сканируя по новой ссылки ( те пропустить уже полученное) собрать только новые и отпарсить их?
    С загруженным контентом понятно, а вот как сканирование не повторять с нуля?

    Может вопрос и ламерский, но хорошо бы внятный порядок действий для начинающего.
     
  2. Павел

    Павел New Member Пользователи

    Регистрация:
    23 окт 2012
    Сообщения:
    13
    Симпатии:
    0
    где то в программе встречал опцию о сохранении ссылок в файл, чтоб в дальнейшем не сканить.
     
  3. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.442
    Симпатии:
    1.422
    Буквально аналогичная ситуация была:
    Зайдите в сканнер, нажмите сначало кнопку "добавить ссылки из списка парсинга...."
    п.с. Пояснение в картинке _http://i.imgur.com/IUR7K.png
     

Поделиться этой страницей