Обход капчи гугла

Тема в разделе "Решения по парсингу популярных сайтов", создана пользователем Kevin, 6 июл 2020.

  1. Kevin

    Kevin New Member Пользователи

    Регистрация:
    10 июн 2020
    Сообщения:
    17
    Приветствую, господа. Гугл банит независимо от потоков: 15 потоков и задержка 2000-4000, либо 1 поток и задержка 8000-10000. Нужно подключать прокси. Кто уже проходил через это, помогите, пожалуйста.
    Какой тип? (наверное, socks5), Есть бесплатные прокси, чтобы более-менее работали? Либо сервис капчи, но не с космическими ценами...
    А может кто-то знает альтернативный способ обхода капчи? (версия - standart, так что ручное решение капчи через WBapp не получится)
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Насколько я знаю, все паблик прокси забанены Гуглом.

    Нужно использовать Socks 5 приватные прокси.
     
  3. Kevin

    Kevin New Member Пользователи

    Регистрация:
    10 июн 2020
    Сообщения:
    17
    Приобрел несколько прокси, начал тестить - они не добавляются. Добавил без проверки - вот что пишет:
    Программе не удалось загрузить WEB-страницу (Assertion failure (D:\Progects\InetSuite\develop\vcl\src\common\clSocks.pas, line 636))
    Приобрел на сайте proxy6.net, по 4 рубля за штуку
     

    Вложения:

  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Можно под хайдом пару таких прокси для теста?
     
  5. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    Проект приложите?
    Очень интересно, что значит парсить гоогле?
    Допустим под словом "гогле" вы подразумеваете парсинг выдачи поисковика, например google.com/search?q=как+правильно+задавать+вопрос
    Тогда имеет значение какие поисковые слова вы используете, и операторы поиска.
    п.с. похоже в ctrl+h все это дело под одним юзерагентом.
     
  6. Kevin

    Kevin New Member Пользователи

    Регистрация:
    10 июн 2020
    Сообщения:
    17
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 10000 постов.**
     
    Последнее редактирование модератором: 7 июл 2020
  7. Kevin

    Kevin New Member Пользователи

    Регистрация:
    10 июн 2020
    Сообщения:
    17
    Держите. юзерагентов много вставил. но факт в том, что прокси не проходят проверку, то есть это не бан от гугла, а всё прерывается еще на этапе добавления прокси...
     

    Вложения:

    • abc.cdp
      Размер файла:
      65,4 КБ
      Просмотров:
      6
    kagorec нравится это.
  8. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    Парсите через Wbapp (ctrl+h отметить "контент")
    Предположение есть что слишком подозрительные запросы google банит. Ссылки недоступны для гостей
    Тот же проект но с простыми запросами типа "как сделать ..." без операторов. Ссылки недоступны для гостей
     
  9. Kevin

    Kevin New Member Пользователи

    Регистрация:
    10 июн 2020
    Сообщения:
    17
    А можете, пожалуйста, скинуть скрин с настройками прокси? А то купил прокси, и они не работают. Выдает ошибку:
    Программе не удалось загрузить WEB-страницу (Assertion failure (D:\Progects\InetSuite\develop\vcl\src\common\clSocks.pas, line 636))
     
  10. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    При парсинге через Wbapp лучше использовать анонимные HTTP\HTTPS (ipv4) и библиотека CIS или WIN
     
  11. Kevin

    Kevin New Member Пользователи

    Регистрация:
    10 июн 2020
    Сообщения:
    17
    Просто не понимаю, в чем дело. Прокси рабочие по факту, а проверку в программе не проходят
     
  12. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    В программе для выполнения запросов используется актуальная версия компонента Clever Internet Suite. Это серьезная разработка, но не без проблем.

    Я отправил разработчикам компонента репорт о данной проблеме. Мне неизвестно, примут ли они меры по решению ее.

    Этот компонент должен работать с любыми прокси. Видимо, по какой-то причине, прокси, которые у вас с ним не работают.

    Надеюсь, Kagorec подскажет, какие прокси нужно взять.
     
  13. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    Всем нужны прокси, чтоб работали - в итоге так публично посоветую прокси и через время все дружно начнут их использовать, а это приводит к бану списков.
    Это такое дело личное, лучше найти самостоятельно сервис и использовать.

    Google лучше через wbapp, прокси HTTP. Ничего нового. А то что автор темы наивно решил парсить через GET библиотекой CIS, это уже не проблема библиотеки если банит часто, а нужны огромные списки SOCKS5 проксей. Или добавить разгадывание recaptcha.

    п.с. выше написанное не принимать как руководство, это лишь опыт на данный момент описал. Возможно ктото работает иначе, было бы интересно ознакомиться.
     
  14. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Ребята доработали компонент...
    Теперь должно быть ok...
     
  15. Kevin

    Kevin New Member Пользователи

    Регистрация:
    10 июн 2020
    Сообщения:
    17
    Прекрасно, теперь работает! Последний вопрос: какую, по-вашему, нужно задержку ставить, чтобы гугл/яндекс реже банил прокси? Минута? Две?
     
  16. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Тут не могу подсказать. Это значение подбирается экспериментальным методом.
     
  17. gans

    gans Well-Known Member Пользователи

    Регистрация:
    21 апр 2014
    Сообщения:
    309
    Добрый день! Также могу посоветовать парсить другие поисковые системы. bing, yahoo, ecosia(в последнее время капризная стала), talktalk.co.uk(домен здесь не зря). Последний поисковик - довольно интересный! Технология google. Какие-то запросы работают, какие-то - нет. Пробуйте!

    PS Также Ссылки недоступны для гостей
    PSS Про Ссылки недоступны для гостей думаю, все и так знают. :)
     
    Последнее редактирование: 8 июл 2020
  18. Kevin

    Kevin New Member Пользователи

    Регистрация:
    10 июн 2020
    Сообщения:
    17
    Интересные ПС, спасибо Вам большое!
    Только яху тоже капчу выдает, а talktalk.co.uk выдает ошибку (пишет, что не работает в россии. видимо, уже 3 года)
    PS: да, ecosia тоже капчу выдает
    PSS: startpage не богат на результаты(
     
    Последнее редактирование: 9 июл 2020
  19. Kevin

    Kevin New Member Пользователи

    Регистрация:
    10 июн 2020
    Сообщения:
    17
    Извините, может я что-то не понимаю)
    Использую разные юзерагенты, прокси работают, запросы упростил, выставил 5 потоков с задержкой в минуту! Но он всё равно банит. А у Вас, я видел, всё четко, как говорится)
    Я что-то упустил? Может, гугл еще банит по кукам?
     
  20. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    Прокси использовал другие.
     

Поделиться этой страницей