Как исключить ссылки из выдачи при наличии определенных границ

Тема в разделе "Границы парсинга", создана пользователем OPen, 14 май 2017.

  1. OPen

    OPen New Member Пользователи

    Регистрация:
    8 фев 2017
    Сообщения:
    1
    Опишу проблему
    Sitemap выдает ссылки, но при переходе на некоторые из них мы не находим требуемого контента (товар)

    сайт возвращает сообщение "товар не найден"
    и обязательных границ парсинга соответственно на этих страницах не находится, и страница попадает обратно в очередь. вариант не добалять ссылку в очередь при отсутствии обязательной границы не подходит, поскольку сайт банит некоторые прокси, и нужно пытаться загружать страницу с другого прокси.
    а если я вижу надпись "товар не найден", то я знаю точно что такую страницу мне больше не надо посещать. таких страниц набирается несколько тысяч и все они скапливаются в конце очереди парсинга, и в результате парсер последние несколько часов работает в холостую((

    итого, как исключить страницу из очереди если на ней есть "товар не найден"?
     

Поделиться этой страницей