1. Обслуживание форума приостановлено! Форум работает в режиме чтения.

Парсинг POST-запросом с параметрами

Тема в разделе "Создание различных запросов с помощью программы", создана пользователем vladroots, 9 окт 2018.

  1. vladroots

    vladroots New Member Пользователи

    Регистрация:
    24 мар 2017
    Сообщения:
    25
    Добрый день! Подскажите как парсить такой ресурс? Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    Столкнулся с несколькими проблемами
    1. Необходимо выбрать фильтр
    2. Одинаковые классы в таблице
    3. Парсить начальную таблицу и заставить парсер гулять по ссылке и другим вкладкам на следующей странице, забирая от туда информацию.
    Буду благодарен за любую помощь заранее спасибо!
     
  2. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.630
    учимся пользоваться post запросами
     
  3. vladroots

    vladroots New Member Пользователи

    Регистрация:
    24 мар 2017
    Сообщения:
    25
    Нужна помощь, посмотрел видео, поставил плагин в firefox при пиганации Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! выдает 2 результата. Нажимаю на 1 из них такая картинка Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! . Правильно я понимаю что подставлять надо ссылку Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! и параметры page":3, подставлять PARAM
    {"size":10,"page":3,"filter":{"status":[],"idDeclType":[2,4],"idCertObjectType":[],"idProductType":[],"idGroupRU":[],"idGroupEEU":[],"idTechReg":[],"idApplicantType":[],"regDate":{"minDate":null,"maxDate":null},"endDate":{"minDate":null,"maxDate":null},"columnsSearch":[],"idProductEEU":[],"idProductRU":[],"idDeclScheme":[],"awaitForApprove":null,"editApp":null,"violationSendDate":null},"columnsSort":[{"column":"declDate","sort":"DESC"}]}

    Очень прошу помочь, заранее благодарен.
     
  4. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    589
    Рекомендую ознакомится с fiddler и ему подобным софтом.
    Мониторьте запросы при обращении к сайту, смотрите в каких запросах возвращаются нужные вам данные.
    Меняйте/подставляйте данные - анализируйте резкльтат
     
  5. vladroots

    vladroots New Member Пользователи

    Регистрация:
    24 мар 2017
    Сообщения:
    25
    Сложновато для меня. Тaм как я понимаю json.
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    13.016
    Город:
    Сочи
    Правильно.

    Также для этого сайта нужно в окне ctrl+h выбрать библиотеку Clever Internet Suite и, насколько я понял, вставить нужные HTTP-заголовки от запроса из плагина Firefox (в ctrl+h -> поле custom headers), чтобы не было ошибки 403

    2018-10-11_05-16-10.png
     
  7. vladroots

    vladroots New Member Пользователи

    Регистрация:
    24 мар 2017
    Сообщения:
    25
    Спасибо, уже близко к победе что то получается не могу понять как получить теперь список Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! и какая все таки ссылка выдергивает базу и как ее получить для парсинга? По ссылке Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! ? Пришлось еще задействовать WBapp подгрузка 1 пигонации занимает около 25 сек.
     

    Вложения:

    • pub_fsa_ru.cdp
      Размер файла:
      36,5 КБ
      Просмотров:
      7
  8. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.630
    Какой список вы хотите получить?
    Еще раз.
    1) напишите какие фильтра выставлять, потому что я на угад потыкал и ничего не получил в выдаче.
    2) куда вам надо гулять, показывайте хоть на картинках.
    3) какой вид вы хотите получить в конце, прикрепите табличку или что-то вроде.
    Спасибо.
    p.s. для спокойных нервов я бы обратился к специалистам. Судя по тому как там все устроенно вам будет довольно тяжко с этим разобраться
     
  9. vladroots

    vladroots New Member Пользователи

    Регистрация:
    24 мар 2017
    Сообщения:
    25
    1. Первые 2 фильтра. Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    2 достаточно получать выделенную информацию Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! там есть все необходимые поля. Нужен статус. дата начала, окончания, информация о продукции, компания и информация о лабораториях.
    3 в виде csv
     

    Вложения:

    • пример.csv
      Размер файла:
      440 байт
      Просмотров:
      4
  10. vladroots

    vladroots New Member Пользователи

    Регистрация:
    24 мар 2017
    Сообщения:
    25
    Сергей, добрый день! Я знаю вы можете помочь с данным вопросом. Подскажите как Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! вывести все это дело в парсер? И указать границы парсинга. Заранее благодарен.
     
  11. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.630
    Ну настроить точно так же запрос в контенте как и в браузере
    Задать повторяющуюся границу и настроить там обычные
     
  12. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    13.016
    Город:
    Сочи
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
     
    Kreol нравится это.
  13. Vitaliy_S

    Vitaliy_S New Member Пользователи

    Регистрация:
    20 янв 2019
    Сообщения:
    1
    Город:
    Уфа
    Аналогичная задача. Для начала нужно просто получить список URL со страницы Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! . Почитал форум, посмотрел видео про пост запросы. Подходит 1е видео, там тоже пост запросы в json формате и говорится, что их нужно преобразовать и каждый с новой строки, но в нашем примере json имеет вложенность
    Код:
    {"size":10,"page":1,"filter":{"status":[],"idDeclType":[],"idCertObjectType":[],"idProductType":[],"idGroupRU":[],"idGroupEEU":[],"idTechReg":[],"idApplicantType":[],"regDate":{"minDate":"2008-12-26","maxDate":null},"endDate":{"minDate":null,"maxDate":null},"columnsSearch":[{"name":"number","search":"","type":0,"translated":false}],"idProductOrigin":[],"idProductEEU":[],"idProductRU":[],"idDeclScheme":[],"awaitForApprove":null,"editApp":null,"violationSendDate":null},"columnsSort":[{"column":"declDate","sort":"DESC"}]}
    Данныйе грузятся по запросу к этой странице
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    Если обратится напрямую то получим ошибку 403. Скопировал все заголовки которые передаются, уже лучше, получаю ошибку 500, что "Документ, который вы пытаетесь загрузить, пуст (HTTP/1.1 500 )"

    Логично остается решить проблем у с правильным пост запросом, как его правильно записать? Если просто вставить Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! то выдает такуюже ошибку "Документ, который вы пытаетесь загрузить, пуст (HTTP/1.1 500 )".
    Для загрузки использую Clever Internet Suite, также пробовал INDY с ним выдает "Документ, который вы пытаетесь загрузить, пуст (Socket Error # 0 )"
     
  14. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    13.016
    Город:
    Сочи
    Здравствуйте.

    Данный сайт имеет некую защиту, смысл работы которой для меня пока не понятен (передача HTTP заголовков вопрос пока не решила).

    Парсите данный сайт с помощью
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
     

Поделиться этой страницей