POST запросы все возможности

Тема в разделе "Решение различных задач по парсингу", создана пользователем Djahat, 27 мар 2017.

  1. Djahat

    Djahat Well-Known Member Пользователи

    Регистрация:
    14 янв 2013
    Сообщения:
    543
    Город:
    Мордор
    Всем привет.
    Тренируюсь использовать пост запросы.
    Хочу спарсить все ники на сайте
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    , но только с определенных ключевых слов в названии проекта.

    На этом сайте и по другому линки можно получить, но интересует именно способ POST так как тут он видимо со всеми гимморами связан и поможет лучше научиться.

    План такой:
    1) Захожу на сайт
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 2 постов.**
    2) Ввожу в поле поиска bitrix и нажимаю применить фильтр. Получаю блок в HTTP LIVE HEADERS такой:
    Код:
    https://www.fl.ru/projects/
    
    POST /projects/ HTTP/1.1
    Host: www.fl.ru
    User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64; rv:52.0) Gecko/20100101 Firefox/52.0
    Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
    Accept-Language: ru-RU,ru;q=0.8,en-US;q=0.5,en;q=0.3
    Accept-Encoding: gzip, deflate, br
    Referer: https://www.fl.ru/projects/
    Cookie: PHPSESSID=tnhk742leprkhqgmfivnj096t6; pda=0; _ga=GA1.2.1941189595.1490595892; _ga_cid=1941189595.1490595892; _ym_uid=1490595893974875928; _ym_isad=2; ue_sso_token=OKN8mTOsAJ9jYMS1wXxX2TTpNXXWGlSOoU7cy%252BUi4IOL4a4RqGQiYFKnKA9aUiH5QIP0zg%252BBuG0wWZ9tQx3Fc223pBFFdSvFoqXxG9yFlrUZpXYsi%252FOK5K9IyQ1K9ZhmxqAZkgRCufyXrtRhk%252FkSS5KZEQS8AFA5YemLnB7a7%252BwhwAJdSrqdgAfzs6rB%252BbFVNHX04rfDfj20TkOubMS6Bw%253D%253D; new_pf0=1; new_pf10=1; hidetopprjlenta=0; uechat_27458_pages_count=23; _ym_visorc_6051055=w; uechat_27458_first_time=1490605596387; uechat_27458_mode=0; _gat=1
    Connection: keep-alive
    Upgrade-Insecure-Requests: 1
    Content-Type: application/x-www-form-urlencoded
    Content-Length: 630
    action=postfilter&kind=5&pf_category=&pf_subcategory=&comboe_columns%5B1%5D=0&comboe_columns%5B0%5D=0&comboe_column_id=0&comboe_db_id=0&comboe=%D0%92%D1%81%D0%B5+%D1%81%D0%BF%D0%B5%D1%86%D0%B8%D0%B0%D0%BB%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D0%B8&location_columns%5B1%5D=0&location_columns%5B0%5D=0&location_column_id=0&location_db_id=0&location=%D0%92%D1%81%D0%B5+%D1%81%D1%82%D1%80%D0%B0%D0%BD%D1%8B&pf_cost_from=&currency_text_columns%5B1%5D=0&currency_text_columns%5B0%5D=2&currency_text_column_id=0&currency_text_db_id=2&pf_currency=2&currency_text=%D0%A0%D1%83%D0%B1&pf_keywords=bitrix&u_token_key=0c1f38db851f38de4b93eaa544595e2f
    HTTP/1.1 302 Found
    Server: nginx
    Date: Mon, 27 Mar 2017 09:31:35 GMT
    Content-Type: text/html; charset=UTF-8
    Content-Length: 0
    Connection: keep-alive
    Expires: Thu, 19 Nov 1981 08:52:00 GMT
    Cache-Control: no-store, no-cache, must-revalidate, post-check=0, pre-check=0
    Pragma: no-cache
    Set-Cookie: hidetopprjlenta=0; expires=Wed, 26-Apr-2017 09:31:35 GMT; Max-Age=2592000; path=/
    Location: /projects/
    towww: 0
    x-frame-options: SAMEORIGIN
    
    3) Перехожу в меню POST библиотеки INDY - вношу поля контент и ссылки текст заголовка
    action=postfilter&kind=5&pf_category=&pf_subcategory=&comboe_columns%5B1%5D=0&comboe_columns%5B0%5D=0&comboe_column_id=0&comboe_db_id=0&comboe=%D0%92%D1%81%D0%B5+%D1%81%D0%BF%D0%B5%D1%86%D0%B8%D0%B0%D0%BB%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D0%B8&location_columns%5B1%5D=0&location_columns%5B0%5D=0&location_column_id=0&location_db_id=0&location=%D0%92%D1%81%D0%B5+%D1%81%D1%82%D1%80%D0%B0%D0%BD%D1%8B&pf_cost_from=&currency_text_columns%5B1%5D=0&currency_text_columns%5B0%5D=2&currency_text_column_id=0&currency_text_db_id=2&pf_currency=2&currency_text=%D0%A0%D1%83%D0%B1&pf_keywords=bitrix&u_token_key=0c1f38db851f38de4b93eaa544595e2f

    4) Перехожу во вкладку СЫЛКИ, запускаю парсинг, мне в ответ: Документ, который вы пытаетесь загрузить, пуст (Socket Error # 0 )

    Парадокс в том, что пока я тыкал проект 3 часа, меняя куки и кастом хедеры и прочее, у меня несколько раз получалось, что сайт принял POST запрос и вернул мне нужные ссылки, но повторить успех не получается. Такое ощущение, что сайт хочет чтобы его сначала запустили с WBAPP, потом WBAPP отключили и использовали INDY, но может это паранойя моя.

    Если есть мастера, кому не жалко сказать в чем моя ошибка, буду рад любой помощи.
     

    Вложения:

Поделиться этой страницей