Как сайт может вас определять

Тема в разделе "Прокси для парсинга", создана пользователем Maxxx, 20 авг 2020.

  1. Maxxx

    Maxxx Member Пользователи

    Регистрация:
    30 май 2020
    Сообщения:
    113
    Попался сайт интересный, дает собрать около 5000 url, после чего одна из обязательных границ пропадает (цена). Не помогает: смена proxy, смена useragent, смену кукис. Причем может быть такое, что если запустить этот же проект с другого ноута, подключенного к этому же ip (wifi), то он тоже может дать ему собрать еще около 5000 строк, даже без прокси. Потом начинается то же самое... Как еще может вычислять парсинг сайт?
    Парсил через win, пробовал и через Advor, меняя там настройки приватности.
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    При запросе передается IP и HTTP заголовки.

    Следовательно: по IP или HTTP Заголовкам.

    Используйте библиотеку CIS и передайте в окно ctrl+h заголовки (custom headers), например, из Firefox (взятые с этого сайта, конечно же).

    Также учтите, что прокси бывают разной степени анонимности (или как это называется).

    Если использовать библиотеку CIS совместно с анонимными прокси, сайт не сможет определить вас.
     
    Maxxx нравится это.
  3. Maxxx

    Maxxx Member Пользователи

    Регистрация:
    30 май 2020
    Сообщения:
    113
    Большущее спасибо, буду пробовать!)
     
    Root нравится это.

Поделиться этой страницей