Парсинг POST-запросом с параметрами

Тема в разделе "Создание различных запросов с помощью программы", создана пользователем vladroots, 9 окт 2018.

  1. vladroots

    vladroots New Member Пользователи

    Регистрация:
    24 мар 2017
    Сообщения:
    18
    Добрый день! Подскажите как парсить такой ресурс? Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    Столкнулся с несколькими проблемами
    1. Необходимо выбрать фильтр
    2. Одинаковые классы в таблице
    3. Парсить начальную таблицу и заставить парсер гулять по ссылке и другим вкладкам на следующей странице, забирая от туда информацию.
    Буду благодарен за любую помощь заранее спасибо!
     
  2. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.344
    учимся пользоваться post запросами
     
  3. vladroots

    vladroots New Member Пользователи

    Регистрация:
    24 мар 2017
    Сообщения:
    18
    Нужна помощь, посмотрел видео, поставил плагин в firefox при пиганации Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! выдает 2 результата. Нажимаю на 1 из них такая картинка Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! . Правильно я понимаю что подставлять надо ссылку Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! и параметры page":3, подставлять PARAM
    {"size":10,"page":3,"filter":{"status":[],"idDeclType":[2,4],"idCertObjectType":[],"idProductType":[],"idGroupRU":[],"idGroupEEU":[],"idTechReg":[],"idApplicantType":[],"regDate":{"minDate":null,"maxDate":null},"endDate":{"minDate":null,"maxDate":null},"columnsSearch":[],"idProductEEU":[],"idProductRU":[],"idDeclScheme":[],"awaitForApprove":null,"editApp":null,"violationSendDate":null},"columnsSort":[{"column":"declDate","sort":"DESC"}]}

    Очень прошу помочь, заранее благодарен.
     
  4. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    287
    Рекомендую ознакомится с fiddler и ему подобным софтом.
    Мониторьте запросы при обращении к сайту, смотрите в каких запросах возвращаются нужные вам данные.
    Меняйте/подставляйте данные - анализируйте резкльтат
     
  5. vladroots

    vladroots New Member Пользователи

    Регистрация:
    24 мар 2017
    Сообщения:
    18
    Сложновато для меня. Тaм как я понимаю json.
     
  6. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.663
    Город:
    Сочи
    Правильно.

    Также для этого сайта нужно в окне ctrl+h выбрать библиотеку Clever Internet Suite и, насколько я понял, вставить нужные HTTP-заголовки от запроса из плагина Firefox (в ctrl+h -> поле custom headers), чтобы не было ошибки 403

    2018-10-11_05-16-10.png
     
  7. vladroots

    vladroots New Member Пользователи

    Регистрация:
    24 мар 2017
    Сообщения:
    18
    Спасибо, уже близко к победе что то получается не могу понять как получить теперь список Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! и какая все таки ссылка выдергивает базу и как ее получить для парсинга? По ссылке Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! ? Пришлось еще задействовать WBapp подгрузка 1 пигонации занимает около 25 сек.
     

    Вложения:

    • pub_fsa_ru.cdp
      Размер файла:
      36,5 КБ
      Просмотров:
      2
  8. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.344
    Какой список вы хотите получить?
    Еще раз.
    1) напишите какие фильтра выставлять, потому что я на угад потыкал и ничего не получил в выдаче.
    2) куда вам надо гулять, показывайте хоть на картинках.
    3) какой вид вы хотите получить в конце, прикрепите табличку или что-то вроде.
    Спасибо.
    p.s. для спокойных нервов я бы обратился к специалистам. Судя по тому как там все устроенно вам будет довольно тяжко с этим разобраться
     
  9. vladroots

    vladroots New Member Пользователи

    Регистрация:
    24 мар 2017
    Сообщения:
    18
    1. Первые 2 фильтра. Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    2 достаточно получать выделенную информацию Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! там есть все необходимые поля. Нужен статус. дата начала, окончания, информация о продукции, компания и информация о лабораториях.
    3 в виде csv
     

    Вложения:

    • пример.csv
      Размер файла:
      440 байт
      Просмотров:
      0
  10. vladroots

    vladroots New Member Пользователи

    Регистрация:
    24 мар 2017
    Сообщения:
    18
    Сергей, добрый день! Я знаю вы можете помочь с данным вопросом. Подскажите как Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! вывести все это дело в парсер? И указать границы парсинга. Заранее благодарен.
     
  11. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.344
    Ну настроить точно так же запрос в контенте как и в браузере
    Задать повторяющуюся границу и настроить там обычные
     
  12. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.663
    Город:
    Сочи
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
     
    Kreol нравится это.

Поделиться этой страницей