мягкий бан, не обходящийся прокси

Тема в разделе "Решение проблем с использованием программы", создана пользователем SeoNew, 8 ноя 2014.

  1. SeoNew

    SeoNew New Member Пользователи

    Регистрация:
    13 окт 2013
    Сообщения:
    27
    подскажите, как решить:

    есть сайт, который, подозревая, что его парсят, выдает капчу (да тот же Гугл, как известно, так же себя ведет),

    тем не менее, страница отадется: STATUS 200 OK, все дела,

    но контент-то на странице не отдался, что можно видеть по размеру страницы в логе парсинга.

    Как можно не считать эти страницы скачанными и возвращать их в лист парсинга в процессе работы?

    Т.е. потом, проанализровав лог, я смогу это сделать, но хотелось бы, чтобы программа не писала на такие URLы "выполнено"
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Вкладка "контент" - группа "парсинг и обработка" - кнопка "автоматизация..." - галочка "пытаться повторно загружать документы" (+ смотреть ее опции правее галочки).

    С уважением к вам, Сергей.
     
  3. SeoNew

    SeoNew New Member Пользователи

    Регистрация:
    13 окт 2013
    Сообщения:
    27
    о, то, что нужно, спасибо!
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Пожалуйста.

    Обращайтесь...
     
  5. recrut

    recrut New Member Пользователи

    Регистрация:
    16 мар 2017
    Сообщения:
    45
    Проблема примерно та же, но. Используются список прокси. Есть подозрение, что при парсинге, при подобном бане, CD получает страницу, не находит там обязательных границ, помещает саму ссылку в повтор, но адрес прокси при этом не выкидывает из списка. Судя по мониторингу подобный адрес начинает плодить эти повторы, в целом замедляя сам процесс парсинга. Используется несколько машин парсящих один и тот же сайт и это хорошо заметно. Как настроить удаление прокси не только не получающего страницу, но и не находящего на ней нужных границ в течении определенного количества попыток?
     
  6. kadishev1997

    kadishev1997 Well-Known Member Пользователи

    Регистрация:
    27 мар 2019
    Сообщения:
    310
    Скорее всего, нужно пробовать делать комбинацию через CHECKENTRY, INT_ID (или COUNT) и PROXY_DELETE.

    Внутри CHECKENTRY вгоняем условие, если INT_ID (или COUNT) повторится определенное кол-во раз (страница не загружена и/или отсутствует одна из границ), сработает макрос PROXY_DELETE.

    Это примерно и в кратце, в каком направлении скорее всего нужно смотреть
     
    Root нравится это.
  7. recrut

    recrut New Member Пользователи

    Регистрация:
    16 мар 2017
    Сообщения:
    45
    Спасибо за наводку, буду смотреть.
     

Поделиться этой страницей