Условие для сканера сайта

Тема в разделе "Парсинг во вкладке "Ссылки"", создана пользователем Михаил_А, 10 апр 2013.

  1. Михаил_А

    Михаил_А New Member Пользователи

    Регистрация:
    10 апр 2013
    Сообщения:
    1
    Есть сайт со списком статей, разбитом постранично. Для каждой статьи в списке указана дата публикации. Список ссылок для парсинга контента статей вынимается с помощью сканера сайтов, используя шаблон с изменяющейся частью {num}. Как ограничить работу сканера по получению ссылок только самыми свежими статьями?
    Т.е. надо чтобы сканер сайта не пытался искать нужные ссылки со всех возможных страниц от 1 до N, а закончил работу например на третьей странице, где нашел ссылку на статью с устаревшей датой - далее искать ссылки сканеру уже не надо.
    Важно, что нужно именно остановить работу сканера сайта на странице page=Х по заданному условию даты, а не просто отфильтровать получаемые ссылки. Т.е. надо предотвратить бан из-за загрузки лишних страниц списка устаревших статей.
     
  2. alamina.moon

    alamina.moon Модератор Команда форума Модератор

    Регистрация:
    14 янв 2013
    Сообщения:
    214
    задайте в фильтре ссылок части тех страниц которые надо спарсить
    /page/1
    /page/2
    /page/3
    или укажите для {num} интервал от 1 до 3 (для Вашего опримера)
     

Поделиться этой страницей