Количество потоков, cookies, headers

Тема в разделе "Разное", создана пользователем Denorion, 8 апр 2020.

  1. Denorion

    Denorion Member Пользователи

    Регистрация:
    7 апр 2020
    Сообщения:
    45
    Город:
    Москва
    Господа, добрый день!

    Какой принцип связи cookie и потоков парсинга?
    Если в окне настроек заголовков указаны

    Без этой строки не работает
    x-requested-with: XMLHttpRequest

    Без этой строки тоже не работает
    x-requestverificationtoken: <CD_GRAN_13!> (здесь подставляется код найденный на странице)

    И эти два параметра тоже нужны, без них нужная информация не подгружается
    cookie: route=5189946059d19338d652efa8cd87cbf73dfbd493; ncache=0%3B115577_507_3158_2737_1699_1733_686%3B69_63_22_30_48_66_1_70_31_68_33_4_40_71_38_65%3B1.0--%3B3_12_15_18;


    Если с x-requestverificationtoken более менее понятно - он динамически подставляется из кода на странице и вроде, как логика понятна. отправили код - код верен, получили ответ.

    С куками никак не пойму. Вот я взял эти куки из браузера и вписал их в настройки. Эти куки никак не меняются и они постоянно отправляются одни и те же. Если я ставлю парсинг в 50 потоков - все эти 50 потоков используют эти куки... И что получается - для сайта все это месево из 50-ти потоков с паузой в одну секунду является одним человеком? Т.е. все потоки используют одни и те же куки?

    1 Нельзя ли сделать, что бы каждый поток был "отдельным пользователем", что бы для сайта это было, как 50 разных человек?

    2 Я только пытаюсь понять логику. Просто если использовать прокси - то это подразумевает скрывать от сайта, что по сайту бегает 50 потоков от одного и того же человека. Т.е. сайт должен думать, что это разные люди, но если используются одни и те же куки во всех потоках то какой смысл от прокси?

    3 Или Библиотеки INDY, CIS, WIN не подразумевают использование прокси если сайту нужны куки? Я понимаю если бан по IP из за кучи потоков - можно разбить на прокси - тут тоже более менее понятно. Но если сайт не дает инфу без кукисов то даже использование прокси тут не поможет? или можно как то для каждого потока брать свои кукисы?

    Если не брать сейчас в расчет строенные в CD браузеры - другие библиотеки могут делать на каждый поток свои кукисы?

    Немного не понятно...
    Спасибо!

    -------Добавлено------
    Сейчас в одно проекте в окне настроек заголовков пусто - берется контент страницы товара. и для этой страницы кукисы не нужны, но берется еще другой контент отдельным запросом GETMORECONTENT, который добавляется к уже взятому коду страницы APPENDDOCSOURCE и для этого дополнительного запроса кукисы нужны. И эти кукисы прописываются в окне настройки GETMORECONTENT и они постоянные. Т.е. для сайта, я так понимаю - все потоки являются одним пользователем... Логика в голове не выстраивается.

    В связи с этим и возникли эти все вопросы.

    Объясните - как это работает, какие практики есть.

    Спасибо
     
    Последнее редактирование: 8 апр 2020
  2. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    3.887
    Город:
    Riga
    Пробуйте макросом PHP_SCRIPT с индивидуальными значениями в HEADERS
     
  3. Denorion

    Denorion Member Пользователи

    Регистрация:
    7 апр 2020
    Сообщения:
    45
    Город:
    Москва
    Добрый день! Изучаю все в эту сторону.
    А как работает CD - каждый поток индивидуально работает с кодом в проекте парсинга? Я могу сделать в проекте парсинга, что бы перед выполнением получались куки и при дальнейшем при парсинге этот запрос на куки не повторялся. Но если запустить 50 потоков, то каждый поток выполнит этот запрос 1 раз и потом внутри себя будет использовать эти куки или куки во всех потоках будут использоваться куки от последнего выполневшего этот запрос потока?

    Т.е. при 50 потоках - куки просто будут перезаписываться друг на друга 50 раз и потом все эти 50 потоков все равно будут использовать одинаковые куки? Возможно ли сделать, что бы каждый поток запомнил куки для себя?

    Извините за возможный сумбур, я все только пытаюсь понять.
     

Поделиться этой страницей