Сайт блокирует при парсинге

Тема в разделе "Решение проблем с загрузкой WEB-страниц", создана пользователем Russ, 24 фев 2020.

  1. Russ

    Russ New Member Пользователи

    Регистрация:
    7 фев 2020
    Сообщения:
    9
    Здравствуйте,

    Пытаюсь спарсить сайт Ссылки недоступны для гостей, там больше 100 000 товаров. Но происходит блокировка после скачивания 100-200 товаров. Используется WBApp, 1 поток.

    Если использую прокси, они блокируются все одновременно, и далее даже без прокси сайт не парсится. Т.е. блокировка идет не по IP похоже.

    Буду благодарен за какую-либо помощь. Проект прикрепил на всякий случай.
     

    Вложения:

  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    При использовании WBAppIE кеш браузера и Cookie не очищаются при каждом вызове WBApp.

    Если использовать WBAppCEF, то при каждом вызове WBAppCEF будет создан браузер с новым кешем и Cookie.

    Попробуйте использовать WBAppCEF для парсинга этого сайта.

    PS: Почему вы парсите с WBApp? Может лучше без него парсить?
     
  3. Russ

    Russ New Member Пользователи

    Регистрация:
    7 фев 2020
    Сообщения:
    9
    Хорошо, попробую использовать WBAppCEF.

    Я этот проект заказывал, т.к. у меня знания программы поверхностные. Разработчик сказал, надо использовать WBApp, т.к. сайт медленный.
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Обращайтесь, если будут вопросы.
     
  5. Russ

    Russ New Member Пользователи

    Регистрация:
    7 фев 2020
    Сообщения:
    9
    Здравствуйте, по вашему совету проект переделали в WbappCEF, без прокси получается парсить, а если добавляю прокси, то в логах пишет "не удалось загрузить страницу". Возможно сможете подсказать, что подправить?

    Проект без прокси прикрепил.
    Прокси, которые использую, проверку в программе проходят:
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 10000 постов.**
     

    Вложения:

  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Заметьте, про работу прокси с WBAppCEF в этой теме я ничего не говорил.

    Оказалось, что предоставленные вами прокси не работают в Chromium. Почему - мне неизвестно, так как не я разрабатывал этот движок браузера.

    Параметры прокси в Chromium передаются корректно. Скорее всего проблема в самом движке.

    В данном случае, учитывая новые нюансы, я рекомендую вам парсить без использования WBApp. Если же все таки использовать WBApp необходимо, попробуйте найти HTTP/HTTPS прокси (вы, как я понял, использовали SOCKS5). С SOCKS5 прокси работает библиотека Clever Internet Suite (выбирается в окне ctrl+h).

    Если будут вопросы, обращайтесь.
     
    Russ нравится это.

Поделиться этой страницей