Сайт распознает "паблик" прокси

Тема в разделе "Прокси для парсинга", создана пользователем recrut, 14 фев 2020.

  1. recrut

    recrut New Member Пользователи

    Регистрация:
    16 мар 2017
    Сообщения:
    11
    Вопрос следующий. Как не засветить свой адрес на сайте? Content Downloader иногда не подгружает список прокси и начинает парсить через стандартный шлюз. Можно ли запретить ему парсинг, если список прокси пуст?
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    12.223
    Здравствуйте.

    По какой причине список прокси не загружается?
     
  3. recrut

    recrut New Member Пользователи

    Регистрация:
    16 мар 2017
    Сообщения:
    11
    Причины разные на практике. 2 самые частые: проблемы с API агрегатора proxy; нестабильный интернет (шлюз перестаёт кратковременно работать и в этот момент CD пытается получить список). Бывает ли, что причиной является сам CD — не смею утверждать.
    Ключевой вопрос: как не засветить свой адрес на сайте?
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    12.223
     
  5. recrut

    recrut New Member Пользователи

    Регистрация:
    16 мар 2017
    Сообщения:
    11
    Новая версия перестала подгружать документы через прокси, в логах ошибка "файл не сохранен: обязательная граница 1 не найдена или оказалась пустой". Без использования прокси все подгружается. Старая версия тоже работает и все подгружает. Возможно изменилось что-то в файле конфигурации проекта. Где посмотреть?
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    12.223
    Все нормально работает.
     
  7. recrut

    recrut New Member Пользователи

    Регистрация:
    16 мар 2017
    Сообщения:
    11
    Тогда что не так делаю?
    Прокси включен (стоит галочка использовать прокси при парсинге контента и в окне задания границ парсинга) Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    И соответственно прокси выключен (галочка снята)
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    В старой версии все работает.
     
    Последнее редактирование: 17 фев 2020
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    12.223
    Я откуда знаю, что вы не так делаете. Вы странные вопросы задаете.

    Почем я знаю, какой у вас проект и какие кнопки вы нажимаете. Вы же об этом не говорите. говорите о какой-то проблеме, я как ее, по вашему, у себя воспроизведу? Вы же проект не предоставляете. У меня нормально прокси работают, проблем нет.
     
  9. recrut

    recrut New Member Пользователи

    Регистрация:
    16 мар 2017
    Сообщения:
    11
    Я понимаю. Что необходимо предоставить?
     
  10. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    12.223
    Вы не только прочитайте мое сообщение, попробуйте его понять. Там очевидно сказано (причем дважды), что нужно предоставлять.
     
  11. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    12.223
    Вы предоставите проект? Или я закрою эту тему.
     
  12. recrut

    recrut New Member Пользователи

    Регистрация:
    16 мар 2017
    Сообщения:
    11
    Да. Проект сейчас подготовлю. Вышлю. Заодно проверяю возможность бана со стороны сайта.
     
  13. recrut

    recrut New Member Пользователи

    Регистрация:
    16 мар 2017
    Сообщения:
    11
    Проект и список ссылок на прокси. Если нужна еще информация, я скину.
     
    Root нравится это.
  14. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    12.223
    Теперь другое дело.

    Попытался исследовать поведение данного сайта и пришел к выводу, что он определяет, что запрос идет через прокси.

    Проблема не в версии программы, вы можете установить более старую версию из C:\content_downloader\updates и попробовать.

    Возможно, с большой вероятностью, вопрос парсинга этого сайта решит использование для парсинга этого сайта анонимных прокси. Так как "паблик" прокси могут не скрывать факт использования прокси.

    Также протестировал, что данный сайт можно парсить в 1 поток с паузой 3000-5000 без прокси. 10000 товаров при этом спарсятся примерно за 1 сутки.

    2020-02-17_13-05-04.png

    Вот информация из интернет по поводу анонимности прокси
     
  15. recrut

    recrut New Member Пользователи

    Регистрация:
    16 мар 2017
    Сообщения:
    11
    CD версии 1110000899 парсит нормально, но иногда почему-то не подгружает список прокси и прасит через стандартный шлюз.
     
  16. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    12.223
    Библиотека CleverInternet Suite (CIS) была обновлена November 25th, 2019
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!

    Почему новая версия библиотеки не работает с данным сайтом через прокси, я не знаю. Проблем при парсинге других сайтов с использованием новой версии библиотеки и прокси выявлено не было.

    Рекомендации по поводу парсинга данного сайта дал выше.

    Также можете для парсинга этого сайта использовать старую версию программы.
     
  17. recrut

    recrut New Member Пользователи

    Регистрация:
    16 мар 2017
    Сообщения:
    11
    Спасибо за развёрнутый ответ! На его основании продолжу поиск подходящего решения.
     

Поделиться этой страницей