Парсинг Ozon + Incapsula. Решение где-то в Cookie

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем kadishev1997, 18 мар 2021.

  1. kadishev1997

    kadishev1997 Well-Known Member Пользователи

    Регистрация:
    27 мар 2019
    Сообщения:
    310
    Всем здравствуйте!

    Ozon подцепил защиту Incapsula (ну как подцепил, она стояла - её включили/усилили).
    Нужно решение. Быстрое решение, не через WBAppCEF, моно-поток или пачку прокси (ибо это уже испробовано).

    Нужные данные - карточка товара или категория. Под них есть специальное API (судя по отправляемым заголовкам в сети Firefox), которая выдаёт информацию без "лишнего кода".

    Ответ кроется где-то в подмене или изменений Cookie.
    Если уже есть подобные готовые проекты или решения - пишите)
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Попробовал, страницы категорий и товаров на Озон открываются и вся информация в коде есть.

    Можете пояснить, в чем состоит проблема парсинга данного сайта?
     
  3. kadishev1997

    kadishev1997 Well-Known Member Пользователи

    Регистрация:
    27 мар 2019
    Сообщения:
    310
    Все верно, информация есть.

    При парсинге во многопотоке (50-100 потоков) - сайт блокирует с помощью Incapsula (аналог CloudFlare, думаю знаком Вам).

    Попробуйте поставить в парсинг 200-300 запросов, максимум на 20-м запросе с одного IP выдаст защиту от роботов (ту самую Incapsula)/

    Ну и сразу закрою назревающий вопрос, почему не в монопоток или с прокси / WBAppCEF? - нужно обрабатывать очень большой массив данных.
    Раньше спокойно выдавало 500 удачных ответов в минуту! Сейчас это прикрыли.
    И с уверенностью 90% знаю о том, что имеется обход через подмену Cookie / замену каких-то элементов внутри самих Cookie от Incapsula. Но не могу найти их. Поэтому и прошу помощи, на платной основе
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    99% там идет проверка количества запросов по IP.

    Полагаю, что решением данного вопроса будет использование должного списка прокси.
     
  5. kadishev1997

    kadishev1997 Well-Known Member Пользователи

    Регистрация:
    27 мар 2019
    Сообщения:
    310
    Да, по IP есть проверка. Сейчас есть большая пачка прокси, которая с трудностями, но обходит подобное на малых скоростях (около 3000 удачно обработанных запросов в час, что очень мало).

    Почему Cookie - ответ прост. Общался с одним из разработчиков, кто уже реализовал это. То есть с готовым решением. Но ценник за выдачу этого решения предложили космический.
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 13600 постов.**
    Разузнал, что да как, и методом опыта и исключений вывод один - какая-то подменная часть кроется в Cookie, а точнее в её нужной и правильной передаче, которая не будет блокировать IP-адрес.
    Чую что-то очень простое (со вставкой/заменой пары символов в Cookie), возможно даже ответ на поверхности, но уже пару недель с этим испытываю трудности, ищу решение.

    Поэтому, задаю вопрос тут, возможно кто-то решил это и предложит рабочий вариант или сможет реализовать. Ну и естественно и там и там - на платной основе
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Возможно и так.

    В куки (или другие заголовки) значения могут генерироваться скриптами на WEB странице. Раз загибают такой ценник, скорее всего, они разгадали алгоритм генерации нужного параметра и воссоздали его.
     
  7. kadishev1997

    kadishev1997 Well-Known Member Пользователи

    Регистрация:
    27 мар 2019
    Сообщения:
    310
    Возможно, вы правы.
    Но такой ценник я явно не готов осилить)))
    Поэтому, если кто-то из старичков/новичков/умельцев и т.д. сможет предложить действительно годное, рабочее решение - готов оплатить
     
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Навряд ли кто-то это за вечер сделает. Это большая работа. Посмотрите Cookie, сколько там параметров генерируется. Все они генерируются либо на стороне сервера, либо браузером в Javascript.

    Простая подмена части Cookie на случайные символы там точно не поможет.

    Поэтому, если не готовы отдать за это пол миллиона, лучше заплатить за пачку хороших прокси и забыть про проблему.
     
  9. kadishev1997

    kadishev1997 Well-Known Member Пользователи

    Регистрация:
    27 мар 2019
    Сообщения:
    310
    За вечер - да, вряд ли. Ребята, которые предложили космический ценниик - сделали это решение примерно за 2 недели. И то, они говорят что это на костылях и это может перестать работать в любой момент. Поэтому космический ценник - абсолютно не оправдан

    Cookie видел, знаю точно, что 3 нужных параметра генерируются от Incapsula. Один из них - направление на нужные сервера сайта, другие два - генерируются при любом запросе, и это не обязательно прямое обращение к старнице, а например переход по их открытому API. Вот в одном или двух из них и стоит вопрос в обходе решения.

    Но возможно, уже с этим кто-то сталкивался и готов поделиться решением.

    Нужный человек - найдись и поделись решением!)))
     
  10. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    867
    На таких сайтах, решение по быстрому парсингу будет работать пока сайт не внесет правки, и гарантий на то что это будет работать завтра или в течении месяца, в здравом уме - никто давать не будет.
    "Космический ценник" - если не секрет о какой сумме идет речь ?
    Подобного рода решения стоят не дешево

    Возможно есть решение, все зависит от Вашего бюджета
     
  11. kadishev1997

    kadishev1997 Well-Known Member Пользователи

    Регистрация:
    27 мар 2019
    Сообщения:
    310
    Да, мне об этом же говорили. С гарантиями по сути, то же самое - не факт что завтра это будет работать.

    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 650 постов.**
    Смотря какой вариант сможете реализовать. Если как я описал - то скорее всего идеальный, и реальный рабочий вариант.
    Бюджет - если по хорошему, хочется уложиться в 10к. Если же нет, нужно рассматривать варианты и цены
     

Поделиться этой страницей