Парсинг с мобильного прокси

Тема в разделе "Прокси для парсинга", создана пользователем sotex2, 18 мар 2021.

  1. sotex2

    sotex2 Member Пользователи

    Регистрация:
    12 авг 2020
    Сообщения:
    130
    Город:
    нижний новгород
    Почему при парсинге с мобильным прокси, при парсинге контента, половина не парсится и в логах ошибок нет, чтобы опять можно было спарсить. На скрине видно из 675, спарсилось в csv 295. Прописан 1 моб.прокси и в программе выставленно 5 потоков с задержкой 5000. мобильные прокси могут меняться, как динамически, по времени и по каждой ссылке. сейчас установлено время обновления при смени ссылки и прокси без ограничения потоков. как правильно настроить прокси для сайта list-org.com.

    [​IMG]
     
  2. masrub

    masrub Well-Known Member Пользователи

    Регистрация:
    29 июн 2018
    Сообщения:
    194
    Смотря как настрое у Вас проект, если граница парсинга не пустая, то длинна строки записываемая в csv будет не иметь какую то минимальную длинну, например 19. Возможна вылезает капча или еще какая защита, сайт не простой.
     
  3. sotex2

    sotex2 Member Пользователи

    Регистрация:
    12 авг 2020
    Сообщения:
    130
    Город:
    нижний новгород
    на скрине, где значение 19, там выскакивает капча и естественно по этой ссылке нет парсинга, но программа об этом не пишет в логах, что по этой ссылке не спарсено. мобильный прокси меняет ip у каждой ссылке. или как сделать, когда встретится капча или не загрузится страница, то поставить на автоматическую паузу с продолжением.
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    2021-03-19_15-28-26.png
     
  5. sotex2

    sotex2 Member Пользователи

    Регистрация:
    12 авг 2020
    Сообщения:
    130
    Город:
    нижний новгород
    у меня такие настройки и стояли. на скрине выше, где значение 19, там страница с капчей, но программа не останавливается и продолжает переходить по другим ссылкам без парсинга данных.
     

    Вложения:

  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Редирект на страницу с каптчей - документ загружен.

    2021-03-19_17-28-50.png
     
  7. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    Достаточно немного логики добавить и все спарситься полностью без пропусков.
    Два варианта:
    1. Если каптча то перезагрузить страницу с другим прокси.
    2. Если обязательная граница пустая то в Ctrl+t такую ссылку не запишет в текстовик, попарсите потом второй раз чтоб собрать все пропуски от предидущего раза.

    п.с. в справке есть подробности о макросах с условиями и фильтрации при парсинге.
     

Поделиться этой страницей