Как ограничить очередь ссылок?

Тема в разделе "Решение различных задач по парсингу", создана пользователем aviator, 27 ноя 2018.

  1. aviator

    aviator New Member Пользователи

    Регистрация:
    26 ноя 2018
    Сообщения:
    2
    Доброго дня. На сайте-доноре регулярно добавляются новые записи. Задача – парсить новые. Про txt-файл с уже спарсенными ссылками я знаю. Перед парсингом сайта ссылки ищутся через сканер, в очередь которого добавляются ссылки из постраничной навигации. Можно ли как-то ограничить количество ссылок, добавляющихся в очередь (в сканере сайта)?
    Алгоритм должен быть такой: заходим на страницу, сканируем первые 5 страниц, отправляем полученные ссылки на парсинг.
    Спасибо за совет.
     
  2. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.919
    Город:
    Сочи
    Здравствуйте.

    В таком случае, как вариант, сгенерируйте нужное количество ссылок с помощью соответствующего инструмента.

    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
     
  3. aviator

    aviator New Member Пользователи

    Регистрация:
    26 ноя 2018
    Сообщения:
    2
    К сожалению нумерация страницы идет в обратной последовательности и не поддается логике.
    какие еще есть методы регулярного поиска новых ссылок? карты сайта нет. В идеале если ограничить количество ссылок добавляемых в очередь сканера.
     
  4. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.478
    Вообще непонятно про что вы
     
  5. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.478
    парсите ссылки и складируете их в файл, при повторном парсинге подключается этот файл
     
    xLime нравится это.
  6. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.919
    Город:
    Сочи
    Только парсить все ссылки сканером. При запуске парсинга контента через файл будут убираться все старые URL.
     

Поделиться этой страницей