Вылазит каптча

Тема в разделе "Решение различных задач по парсингу", создана пользователем talerbiz, 15 апр 2019.

Метки:
  1. talerbiz

    talerbiz Active Member Пользователи

    Регистрация:
    11 мар 2017
    Сообщения:
    143
    В общем, думаю, ситуация многим не нова, но я так и не понял как с ней бороться.

    К примеру я парсю сайт. Вылезла каптча.
    Что делать дальше ?
    Да, есть возможность указать в настройках аварийную остановку работы программы, ввести каптчу ручками и продолжить.
    Но это ведь не надолго, через 1-3-5 минут, а может и менее минут каптча вылезет снова.

    Игры с настройками скорости особого результата не приносят.

    Вопрос.
    Как сделать так, чтобы в тот момент когда вылезла каптча её распознал сервис antigate и парсинг продолжился дальше.

    Покурив мануалы, я так ничего и не понял, там скорее для программистов...

    Ув. форумчане объясните пожалуйста, простому человеку простыми словами, как бороться с каптчей ? ))
     
  2. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.432
    Адрес:
    Latvia
    Скриншот каптчи приложите пожалуйста.
     
  3. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Может лучше список прокси использовать.
     
  4. talerbiz

    talerbiz Active Member Пользователи

    Регистрация:
    11 мар 2017
    Сообщения:
    143
    Вот так капчуха выглядит - Ссылки недоступны для гостей
     
  5. talerbiz

    talerbiz Active Member Пользователи

    Регистрация:
    11 мар 2017
    Сообщения:
    143
    Как правило бесплатные прокси жутко тормозят, а платные тоже банятся и каптча показывается вновь. Вариант купить 100 хороших прокси не по финансам.

    1. Сейчас в firefox есть плагин который автоматически разгадывает капчи, тестировал все шикарно. Можно ли как -то сделать так, чтобы при показе каптчи программа обращалась в firefox и он ее разгадывал ?

    2. Можно ли сделать остановку парсинга если в одно из значений имеет название, например "Пусто". ?
     
  6. Djahat

    Djahat Well-Known Member Пользователи

    Регистрация:
    14 янв 2013
    Сообщения:
    543
    Город:
    Мордор
    Для обхода капч и блокировок чаще используются такие методики, вместе или раздельно.

    1: подстановка куки
    2: Подстановка заголовков запроса
    3: Смена IP адресов (прокси типа или выкуп себе IP адресов или другие методы)

    Как только капча вылетела, можно делать проверку через CHECKENTRY и начинать процесс изменения нужных данных для обхода блокировки.

    Используя все эти 3 метода - всегда решается проблема с вылетом капчи, иначе сайт, который парсишь, не сможет вообще отдавать контент никаким клиентам.

    проанализируй просто в каких комбинациях этих трех пунктах, сайт начинает отдавать контент, в тот момент, когда капча уже запрашивается им.

    прокси много кто продает - можно купить тут например я иногда беру тут - Ссылки недоступны для гостей
     
    AleXL нравится это.
  7. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.432
    Адрес:
    Latvia
    Такие "обычные" каптчи хорошо гадаются через wbapp.
     
    Djahat нравится это.
  8. Djahat

    Djahat Well-Known Member Пользователи

    Регистрация:
    14 янв 2013
    Сообщения:
    543
    Город:
    Мордор
    А как плагин называется этот ?
     
  9. talerbiz

    talerbiz Active Member Пользователи

    Регистрация:
    11 мар 2017
    Сообщения:
    143
    Ссылки недоступны для гостей
     
  10. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Ссылки недоступны для гостей
     
    AleXL нравится это.
  11. talerbiz

    talerbiz Active Member Пользователи

    Регистрация:
    11 мар 2017
    Сообщения:
    143
    Спасибо, понемножку получается. Сделал как на видео.
    Тут еще такой вопрос...

    вот идет парсинг, вылезла каптча, он остановился,
    у меня стоит в браузере автоматическое разгадывание каптч + refresh (30 sec)

    То есть вылазит капча, прога остановилась, в браузере сработал refresh и обновилась страница, каптча разгадалась...
    и последний шаг полной автоматизации, как запустить программу не нажимая кнопочки ? )))
     
  12. talerbiz

    talerbiz Active Member Пользователи

    Регистрация:
    11 мар 2017
    Сообщения:
    143
    Или вообще даже не так...

    В идеале было бы круто если:
    1. Вылазит каптча
    2. Прога остановилась
    3. Автоматически открылась в Яндекс-браузере (я его использую) страница которая была заблокирована.
    4. Плагин автоматически разгадывает каптчу 10-15 сек
    5. Программа пробует запускаться, например через 25 секунд
     
  13. Djahat

    Djahat Well-Known Member Пользователи

    Регистрация:
    14 янв 2013
    Сообщения:
    543
    Город:
    Мордор
    А чем Вас не устраивает ввод капчи средствами WBAPP ? - по логике это тоже самое

    А 3й пункт? насколько мне известно? не реализуем сейчас в CD, есть вариант выполнить приложение после парсинга передав его с параметрами запуска, но в шаблоне вывода макроа с похожим функционалом вроде нет.

    А то, что Вы хотите, в третьем пункте, могло бы быть реализовано, если бы CD в процессе парсинга мог обращаться к приложениям с передачей данных, а приложения могли бы ему отвечать, но такого функционала нет и он сложен, и в принципе не нужен, так как CD умеет обращаться к скриптам PHP в двустороннем режиме, а Ваша задача легко решаема через WBApp
     
  14. talerbiz

    talerbiz Active Member Пользователи

    Регистрация:
    11 мар 2017
    Сообщения:
    143
    Я не совсем знаком с WBApp , знаю что он работает же с IE, а я же не использую IE
     
  15. Djahat

    Djahat Well-Known Member Пользователи

    Регистрация:
    14 янв 2013
    Сообщения:
    543
    Город:
    Мордор
    Это понятно, что никто не использует IE, по многим причинам, но WBApp использует, и если хотите использовать WBApp, то это факт, с которым Вам спорить не удастся.

    Как решить Вашу задачу, тут - подробнейшая инструкция от Сергея (Root)
     
  16. talerbiz

    talerbiz Active Member Пользователи

    Регистрация:
    11 мар 2017
    Сообщения:
    143

    Я просто не понимаю зачем мне использовать WBApp и терять львиную долю скорости, когда есть более приемлемые альтернативы работы с каптчей с которыми скорость значительно выше. Просто нужно немного допилить схему :)
     
  17. talerbiz

    talerbiz Active Member Пользователи

    Регистрация:
    11 мар 2017
    Сообщения:
    143
    WBApp конечно крут, это незаменимая вещь, тут я не спорю, он меня выручал много раз с "заскриптованой информацией" которая открывается по клику. И я знаю что потенциал WBApp огромен. Но в случае с каптчей есть другая альтернатива, без использования WBApp и работой на скоростях 7-10 док/сек
     
  18. Djahat

    Djahat Well-Known Member Пользователи

    Регистрация:
    14 янв 2013
    Сообщения:
    543
    Город:
    Мордор
    И какая это альтернатива?
    Из реализованного вижу только макрос PHP SCRIPT
     
Similar Threads
  1. EvgenStor
    Ответов:
    3
    Просмотров:
    1.136
  2. portret32
    Ответов:
    1
    Просмотров:
    761
Загрузка...

Поделиться этой страницей