Капча на сайте беру - как обойти?

Тема в разделе "Решения по парсингу популярных сайтов", создана пользователем kofe, 14 июн 2019.

  1. kofe

    kofe Member Пользователи

    Регистрация:
    22 май 2019
    Сообщения:
    64
    С недавних пор капчу запрашивает на каждой странице (web документе), если даже на предыдущем был введен и отправлен код.

    Хотя и пишут "с вашего IP адреса", заходя с обычного браузера проблем нет.

    Каким образом (если это возможно) решить вопрос с капчей на сайте беру?
     

    Вложения:

  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Прокси.

    Ссылки недоступны для гостей
     
  3. kofe

    kofe Member Пользователи

    Регистрация:
    22 май 2019
    Сообщения:
    64
    1. У меня динамический IP - меняется несколько раз в день.
    2. Подключался через разные VPN.
    3. Ни с одним браузером на локалке ни разу проблемы с капчей не возникало.

    Иногда-редко но не запрашивает капчу в окне "Авторизация (ctrl+K)", но как только начинаешь парсить, документы не загружаются.

    Видимо сайт не позволяет авторизацию софтом - через "Авторизация (ctrl+K)".
     
    Последнее редактирование: 16 июн 2019
  4. kofe

    kofe Member Пользователи

    Регистрация:
    22 май 2019
    Сообщения:
    64
    Решение: использовать библиотеку "Clever Internet Suite" и предварительно (перед парсингом) авторизоваться лисой, см.: Ссылки недоступны для гостей

    Безымянный рисунок.png

    *В окне "Авторизация (ctrl+K)" по прежнему требует капчу, но парсинг проходит.

    Недостатки:
    - планировщиком запускать проект не получиться
     
    Последнее редактирование: 16 июн 2019
  5. IliaB

    IliaB New Member Пользователи

    Регистрация:
    25 сен 2019
    Сообщения:
    5
    Город:
    Москва
    Если настраивать прокси, то даже из 20 товаров не все спарсились (правда я всего брал штук 5-10 незаблокированных прокси адресов). Нужно много?

    Хотел спарсить 20 товаров, в итоге спарсилось 17 шт.
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей

    Пробовал через "Авторизация методом передачи Cookies из монитора сети Firefox (shift+ctrl+e)", не парсится (у меня на работе статичный IP)
    При этом как-то странно выглядит страница границ парсинга, если Авторизуюсь методом передачи Ссылки недоступны для гостей Получается, что в коде капча всплыла, а страница сама загрузилась.
     
  6. IliaB

    IliaB New Member Пользователи

    Регистрация:
    25 сен 2019
    Сообщения:
    5
    Город:
    Москва
    Поправил количество попыток загрузки документов на 1 и 2000 (мс) и помогло вариантом через Лису.
     

Поделиться этой страницей