Как собрать ссылки с разделов

Тема в разделе "Парсинг конкретных сайтов (ПЛАТНО)", создана пользователем weresa, 25 май 2018.

Метки:
  1. weresa

    weresa Member Пользователи

    Регистрация:
    14 сен 2014
    Сообщения:
    129
    Доброго дня всем.
    Есть сайт Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! , с которого никак не получается собрать ссылки на организации конкретного региона. Бьюсь третий день, уже ум за разум заходит(((
    Если задаю регион в верхнем поле, то выдается список полный, по всей стране.
    Если через расширенный поиск, то выдаются по выбранному региону, но парсер "видит" только первую страницу, по ссылкам на 2,3 и т.д. страницы списка соскальзывает на первую.
    Пыталась кукис брать из HTTPHeaderLive, настроив предварительно один регион - и все равно собираются организации все подряд.
    Помогите, пожалуйста, расколдовать этот сайт? Или он вообще не парсибельный?
     
  2. xLime

    xLime Well-Known Member Супер Модератор Модератор

    Регистрация:
    4 сен 2017
    Сообщения:
    335
    Добрый день.

    Внимательно смотрите заголовки HTTP Headers.

    ID Регионов:
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!

    API:
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!

    Обратите внимание на атрибуты:
    p=1 - страницы
    pageSize=10 - количество огранизаций на странице. Можно увеличить до 100 и более, в зависимости от производительности вашего компьютера.
    regions=5277335 - ID региона
     
    weresa и inotoxic нравится это.
  3. weresa

    weresa Member Пользователи

    Регистрация:
    14 сен 2014
    Сообщения:
    129
    А ткните, куда API вставлять нужно? Это ведь не ссылка, с которой можно парсить...
    С атрибутами я как только не мучилась, но сайт более 100 страниц не выдает (при любом количестве в разделе) и порция к выдаче на странице только 10/20/30, любое другое число автоматически превращается в 10 ссылок на страницу, короче, максимальное кол-во ссылок - 1000. Айди региона в ссылке почему-то не определяет, что будут выдаваться организации именно этого региона.
     
    Последнее редактирование: 25 май 2018
  4. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    216
    Вставлять как ссылку
    Код:
    http://bus.gov.ru/public-rest/api/agency/search/init?d-442831-p=2&orderAttributeName=rank&orderDirectionASC=false&pageSize=10&regionId=5277353&regions=5277353&searchTermCondition=or
    [​IMG]
    Результатом обращения по вышеуказанному url - будет json, внутри которого ищете строки вида
    "agencyId":1553,"fullName" - 1553 - это и есть id фирмы.
    Собрав id и сформировав ссылки вида Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! id - получите ссылки на карточки фирм
     
    weresa и xLime нравится это.
  5. weresa

    weresa Member Пользователи

    Регистрация:
    14 сен 2014
    Сообщения:
    129
    Вот просто в браузере вижу код, вижу что там есть айди, которые нужно собрать. А в окне задания границ этот код не загружается(( Что не так делаю?
     
  6. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    216
    [​IMG]
    Как-то так.
     
  7. weresa

    weresa Member Пользователи

    Регистрация:
    14 сен 2014
    Сообщения:
    129
    Мои действия полностью идентичны. Но ...
    [​IMG]
     
  8. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    216
    Проверьте правильность настроек - может что-то поменяли
    [​IMG]
     
  9. weresa

    weresa Member Пользователи

    Регистрация:
    14 сен 2014
    Сообщения:
    129
    И правда ведь! У меня через WBApp парсилось до этого, сейчас убрала и все загрузилось) мерси громадное!
     

Поделиться этой страницей