смена прокси при бане и т.п.

Тема в разделе "Решение различных задач по парсингу", создана пользователем Love-world, 17 ноя 2018.

  1. Love-world

    Love-world Member Пользователи

    Регистрация:
    19 июл 2013
    Сообщения:
    102
    Как сделать так, чтобы программа автоматически меняла прокси при вылете капчи/бане? Или было бы лучше, чтобы можно было задавать условие, к примеру если определенная граница окажется пустой (или нет) автоматически бы брался другой прокси из списка (а тот опционально удалялся из списка, или txt если открыто из файла).
     
  2. Love-world

    Love-world Member Пользователи

    Регистрация:
    19 июл 2013
    Сообщения:
    102
    Ребят, ну почему молчим?! Нашел похожий топик, человек предлагал похожий вопрос, и тогда ответ был таков


    топик за 2015 год, а вопрос актуален и по сей день. Подскажите, есть ли на данный момент способы решения?
     
  3. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Почему не подходит вариант со списком прокси? Забаненные прокси из него автоматически удаляются.
     
  4. Love-world

    Love-world Member Пользователи

    Регистрация:
    19 июл 2013
    Сообщения:
    102
    Проблема в том, что отсутствует опция выбора, что принимать за бан. Например вылет капчи, определенная граница оказалась пустой/или нет. Т.е. чтобы была возможность выбора, когда менять прокси, и при смене опять таки опционально, либо удалять тот (прокси) с которым условие верно, либо оставлять его. Так получается, условно говоря прокси забанен, но программа не воспринимает это за бан и продолжает с этим прокси работу. В топике предложения по улучшению, я оставлял предложение, хотелось бы чтобы его рассмотрели.

    Приведу пример:
    допустим граница парсинга 1 настроена на текст, который появляется на странице, когда вылетает капча.
    В настройках прокси, выставлено что-то вроде: "в случае если граница 1(2,3 - опционально) окажется не пустой - менять прокси. (и удалять его из списка опционально).
    далее будет перезагружаться этот же документ но уже с новым прокси (его также менять и удалять если с ним граница 1 будет не пустой, и так дальше по циклу пока граница 1 окажется пустой, в таком случает документ успешно загрузится и этот прокси остается в списке, но для следующего документа, как обычно будет выбран следующий по списку прокси и т.д.

    Проще говоря, не переходить на новый документ, до тех пор, пока условие не будет выполнено, в случае успешного выполнения условия - 1 документ - далее замена прокси на следующий по списку, проверка по условию, и т.д. В таком случае видимо придется парсить в 1 поток, но ничего.
     
    Последнее редактирование: 19 ноя 2018
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    2018-11-21_00-04-21.png
     
  6. Love-world

    Love-world Member Пользователи

    Регистрация:
    19 июл 2013
    Сообщения:
    102
    Попробовал, вроде срабатывает, но прокси не удаляет, как сделать так, чтобы прокси с которыми не грузится документ (после выставленных в окне ctrl+h числа попыток), удалялись из списка?
     
    Последнее редактирование: 22 ноя 2018
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Прокси при парсинге удаляются из списка в памяти. Если вам нужно удалять нерабочие прокси из проекта, пользуйтесь функцией автоматической проверки

    2018-11-22_01-05-27.png

    При автозагрузке списка прокси они будут проходить проверку на работоспособность.
     
    Последнее редактирование: 22 ноя 2018
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Это, кстати, описано в хелпе Ссылки недоступны для гостей
     
  9. Love-world

    Love-world Member Пользователи

    Регистрация:
    19 июл 2013
    Сообщения:
    102
    Мануал изучал и насколько я понял, то он выполняет перепроверку ВСЕГО списка проксей после определенного (выставленного) числа спаршеных документов. У меня идея немного другая, в режиме реального времени по ходу парсинга, "выкидывать" прокси поштучно, которые не удовлетворили условию (с этим прокси граница n оказалась пустой/не пустой, число повторных попыток превысило определенный порог (например 5 (выставленный в ctrl+h) и т.д.). При этом можно переходить к следующему документу, а тот который "грузился" невалидным прокси добавлять в конец списка парсинга (например если выставлена галочка "пытаться повторно загружать документы" в окне ctrl+u и т.д.). Таким образом не придется делать много запросов к целевому серверу..
     
  10. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    2018-11-22_13-22-48.png

    Ваша проблема надуманная. Пожалуйста, перестаньте ее мусолить.
     
    napserious и Love-world нравится это.
  11. Love-world

    Love-world Member Пользователи

    Регистрация:
    19 июл 2013
    Сообщения:
    102
    Вот это и есть то что нужно, признаю не заметил этой опции. А чтобы показали пришлось помусолить ). Справедливости ради, отмечу что в мануле скрины еще без этой функции, а для непосвященных довольно таки сложно разобраться в тонкостях. Спасибо вам.
     
  12. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Информация добавлена

    Ссылки недоступны для гостей
     
    Love-world нравится это.
  13. recrut

    recrut New Member Пользователи

    Регистрация:
    16 мар 2017
    Сообщения:
    45
    Добрый день. На сколько я понимаю, проверка прокси происходит через библиотеки CIS или WIN. Сайт не пускает на нужный раздел через библиотеки совсем, только WEBappECF. Соответственно проверка делается через другие разделы и заключается в данном случае только в простой проверке работоспособности того или иного прокси адреса. При парсинге часть адресов сразу может попасть в мягкий бан. Как задействовать проверку списка прокси через WEBapp или что можно еще предпринять в подобном случае?
     
  14. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Скорее всего нужно просто наладить загрузку страниц данного сайта через Clever Internet Suite (CIS).

    Приложите под HIDE с POSTCOUNT 10000 (чтобы увидел только я) ваш файл проекта со списком прокси.
     
  15. recrut

    recrut New Member Пользователи

    Регистрация:
    16 мар 2017
    Сообщения:
    45
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 10000 постов.**
    Добрый день. В архиве кроме проекта дополнительно вложил результат парсинга. Там есть две ошибки. Все что записывает в первый столбец динамических границ перевернуто зеркально относительно остальных. Вернее сказать, все что в первой идет по порядку правил поиска замены, остальное наоборот. В этом файле есть только одно совпадение, но для остальных, если они будут попадаться на первый столбец, результат будет тот же. И еще строка, в которой ссылка на один товар, а данные подтянуты явно с другого. Увидел это только сейчас, поэтому не знаю, есть ли подобные ошибки еще. Прокси подтягиваются по ссылке, прописана в проекте. Спасибо.
    P.S. В этом проекте почему-то вообще не происходит удаления не рабочих прокси серверов.
     
    Последнее редактирование: 23 фев 2021
  16. recrut

    recrut New Member Пользователи

    Регистрация:
    16 мар 2017
    Сообщения:
    45
    Проект не удаляет прокси сервера. Для подгрузки страниц используется WEBappECF. Включил в начало шаблона вывода строку [CHECKENTRY(<!--balance-entrance1-->)][DOCSOURCE][THENTEXT][PROXY_DELETE]. В проекте WEBapp дополнительно включил макрос записи содержимого страниц на диск SAVEHTMLTOFILE. Из него видно, что подобное вхождение в коде есть. В списке прокси, указал 1 попытку на неудачную подгрузку документа. Но как в мониторинге, так и в отчете видно, что прокси сервера не удаляются вовсе.
     
  17. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Нужно смотреть файл проекта. Так трудно угадать причину.
     
  18. recrut

    recrut New Member Пользователи

    Регистрация:
    16 мар 2017
    Сообщения:
    45
    Screenshot_38.png
    Файл проекта передал вчера, в нем немного отличается вхождение. Сегодня описал проблему подробнее. В отчете есть только ошибки отсутствия обязательной границы. На скрине видно, что из 5 прокси серверов 2 явно получают не то, но не отключаются.
     
    Последнее редактирование: 24 фев 2021
  19. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Опция "обязательна" у выбранной вами границы парсинга прерывает выполнение макросов. Обойдитесь без ее использования в данном случае.
     
  20. recrut

    recrut New Member Пользователи

    Регистрация:
    16 мар 2017
    Сообщения:
    45
    Добрый день. Убрал обязательную границу, фильтрую прокси через CHECKENTRY. Выловил уже 6 возможных вариантов блокировки или не верной выдачи страницы. В целом это работает, но не совсем это удобно и судя по логам и выходному файлу получаю не всегда верный результат, обрабатываются страницы код которых не был подгружен. Пробовал ставить опцию "обязательная" для других границ, результата нет, прокси не отсеиваются. Можно ли как-то задействовать обязательные границы в данном проекте?
     

Поделиться этой страницей