Парсинг сайта строительных материалов Леруа Мерлен

Root · 25 янв 2023

Есть вариант вставки Кук из Firefox, но этого хватает на запросов 200, потом опять куки вставлять.

В общем, заморочились они с этим.

Есть вероятность (50/50), что через пару недель примут решение вернуть обратно, так как есть проблемы в их защите и с другими браузерами (в них тоже сайт не работает). Озон тоже ужесточал защиту, сейчас вернул обратно.

gusd · 19 апр 2023

Root сказал(а): ↑

Есть вариант вставки Кук из Firefox, но этого хватает на запросов 200, потом опять куки вставлять.

В общем, заморочились они с этим.

Есть вероятность (50/50), что через пару недель примут решение вернуть обратно, так как есть проблемы в их защите и с другими браузерами (в них тоже сайт не работает). Озон тоже ужесточал защиту, сейчас вернул обратно.
Нажмите, чтобы раскрыть...

Здравствуйте, не подскажете как то удалось получить эти три заветных токена?

gusd · 19 апр 2023

В действительности достаточно для парсинга получить qrator_jsid, как получить его перед запросом пока так и не понял

Alexey2703 · 16 июн 2023

Удалось извлечь автоматически qrator_jsid:

1. Способ:
Из профиля после бразера после, единоразового запуска неавтоматизориванного chrome браузера. После старта браузера на странице леруа, он сохраняет куки в том числе qrator_jsid. С помощью библиотеки
Ссылки недоступны для гостей расшифровываем cookies извлекаем наши (удалось запустить только под windows).
2. Способ:
Извлекаем куки с помощью selenium, применяя приемы скрытия автоматизации (удалось запустить только под windows).

Под линук (kali linux) этот способ не сработал.
Т.к. chromium неавтоматизорованный не пропускает трафик:

выдает:
Сайт может не работать с VPN

Хотя под неавтоматизированым firefox отдает содержимое сайта.

Пока не разобрался в чем причина. Если кто найдет, буду признателен подсказке.

В целом можно парсить через selenium под windows все работает.

Но под linux не удалось пока запустить, хотелось бы запихнуть все в docker контейнер под linux.

параметры настройки браузера chrome для обхода обнаружения автоматизации под windows:

chrome_driver_path = 'C:\PycharmProjects\Price-monitoring-project\chromedriver.exe'

service = Service(chrome_driver_path)
# service = Service(Service(ChromeDriverManager().install())) - не работает

options = webdriver.ChromeOptions()

# options.add_argument('--headless') # - C headless не работает
options.add_argument('--disable-blink-features=AutomationControlled') # первое !!!

#
# options.add_experimental_option('excludeSwitches', ['enable-automation']) # дополнительно
# options.add_experimental_option('useAutomationExtension', False) # дополнительно
#

driver = webdriver.Chrome(service=service, options=options)

driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", { # второе !!!
'source': '''
delete window.cdc_adoQpoasnfa76pfcZLmcfl_Array;
delete window.cdc_adoQpoasnfa76pfcZLmcfl_Promise;
delete window.cdc_adoQpoasnfa76pfcZLmcfl_Symbol;
'''
})

driver.maximize_window()

driver.get(url)

Alexey2703 · 16 июн 2023

И да, если парсить без selenium, придется поддерживать продукт, ибо они переодически меняют headers и cookies. Вот недавно добавили новый заголовок и код на session.get() перестал работать.

Войти или зарегистрироваться

Парсинг сайта строительных материалов Леруа Мерлен

Root Администратор Администратор

gusd New Member Пользователи

gusd New Member Пользователи

Alexey2703 New Member Пользователи

Alexey2703 New Member Пользователи

Проблема с парсингом Леруа мерлен

Парсинг сайта

Парсинг выбранных Бренд/категории с крупного сайта

Парсинг off line сайта.

Парсинг ссылок с рубрики сайта (парсинг материалов по тегам)

Поделиться этой страницей

Войти или зарегистрироваться

Парсинг сайта строительных материалов Леруа Мерлен

Root Администратор Администратор

gusd New Member Пользователи

gusd New Member Пользователи

Alexey2703 New Member Пользователи

Alexey2703 New Member Пользователи

Проблема с парсингом Леруа мерлен

Парсинг сайта

Парсинг выбранных Бренд/категории с крупного сайта

Парсинг off line сайта.

Парсинг ссылок с рубрики сайта (парсинг материалов по тегам)

Поделиться этой страницей

Быстрый поиск