Парсинг пагинации с зашифрованными страницами.

Тема в разделе "Решение различных задач по парсингу", создана пользователем Twist6, 10 июн 2018.

  1. Twist6

    Twist6 Member Пользователи

    Регистрация:
    13 ноя 2016
    Сообщения:
    37
    Подскажите пожалуйста, как парсить пагинацию, когда адрес второй страницы можно получить только при запросе первой страницы.
    Ссылки недоступны для гостей
    Как его подставить сразу в ссылку, чтобы перейти к парсингу уже 2-ой страницы и так далее.
     
  2. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    868
    По скринам мало что понятно, желательно ссылку на сайт.
    Имея ссылку на сайт, можно отснифать запросы и возможно получить более удобный вид ссылок пагинации
     
    xLime нравится это.
  3. Twist6

    Twist6 Member Пользователи

    Регистрация:
    13 ноя 2016
    Сообщения:
    37
    transparencyreport.google.com/copyright/reporters/9911

    Интересует эта пагинация: Ссылки недоступны для гостей
     
  4. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    868
    Корпорация добра.
    К сожалению сгенерировать ссылки пагинации и спарсить по ним данные - в один проход не получиться
    Я бы парсил двумя проектами:
    - первый соберет страницы пагинации
    подставляя полученные данные из запроса
    [​IMG]
    можно собрать все ссылки на страницы
    - второй проект соберет данные по ссылкам
     
  5. Twist6

    Twist6 Member Пользователи

    Регистрация:
    13 ноя 2016
    Сообщения:
    37
    Я хочу собрать все ссылки на стр, только не могу понять как пройти по стр с подставкой этих значений, ведь без подставки этого кода для второй стр, я не узнаю адрес третьей страницы и т.д.
     
  6. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    868
    Запрос вида
    Код:
    https://transparencyreport.google.com/transparencyreport/api/v3/copyright/domains/summary/page?size=10&org=9911&p=MjpBTExfVElNRTozOjk5MTE6MTA6MTA6MjA
    MjpBTExfVElNRTozOjk5MTE6MTA6MTA6MjA - меняющаяся часть в запросе
    Попробуйте с помощью макроса [GETMORECYCLECONTENT]
     
  7. Twist6

    Twist6 Member Пользователи

    Регистрация:
    13 ноя 2016
    Сообщения:
    37
    Это, тоже самое же что и повторяющиеся границы. Спарсить и тут же подставить в урл не получилось
     

Поделиться этой страницей