Как собрать ссылки с разделов

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем weresa, 25 май 2018.

Метки:
  1. weresa

    weresa Member Пользователи

    Регистрация:
    14 сен 2014
    Сообщения:
    166
    Доброго дня всем.
    Есть сайт Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! , с которого никак не получается собрать ссылки на организации конкретного региона. Бьюсь третий день, уже ум за разум заходит(((
    Если задаю регион в верхнем поле, то выдается список полный, по всей стране.
    Если через расширенный поиск, то выдаются по выбранному региону, но парсер "видит" только первую страницу, по ссылкам на 2,3 и т.д. страницы списка соскальзывает на первую.
    Пыталась кукис брать из HTTPHeaderLive, настроив предварительно один регион - и все равно собираются организации все подряд.
    Помогите, пожалуйста, расколдовать этот сайт? Или он вообще не парсибельный?
     
  2. xLime

    xLime Well-Known Member Супер Модератор Модератор

    Регистрация:
    4 сен 2017
    Сообщения:
    372
    Добрый день.

    Внимательно смотрите заголовки HTTP Headers.

    ID Регионов:
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!

    API:
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!

    Обратите внимание на атрибуты:
    p=1 - страницы
    pageSize=10 - количество огранизаций на странице. Можно увеличить до 100 и более, в зависимости от производительности вашего компьютера.
    regions=5277335 - ID региона
     
    weresa и inotoxic нравится это.
  3. weresa

    weresa Member Пользователи

    Регистрация:
    14 сен 2014
    Сообщения:
    166
    А ткните, куда API вставлять нужно? Это ведь не ссылка, с которой можно парсить...
    С атрибутами я как только не мучилась, но сайт более 100 страниц не выдает (при любом количестве в разделе) и порция к выдаче на странице только 10/20/30, любое другое число автоматически превращается в 10 ссылок на страницу, короче, максимальное кол-во ссылок - 1000. Айди региона в ссылке почему-то не определяет, что будут выдаваться организации именно этого региона.
     
    Последнее редактирование: 25 май 2018
  4. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    497
    Вставлять как ссылку
    Код:
    http://bus.gov.ru/public-rest/api/agency/search/init?d-442831-p=2&orderAttributeName=rank&orderDirectionASC=false&pageSize=10&regionId=5277353&regions=5277353&searchTermCondition=or
    [​IMG]
    Результатом обращения по вышеуказанному url - будет json, внутри которого ищете строки вида
    "agencyId":1553,"fullName" - 1553 - это и есть id фирмы.
    Собрав id и сформировав ссылки вида Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! id - получите ссылки на карточки фирм
     
    weresa и xLime нравится это.
  5. weresa

    weresa Member Пользователи

    Регистрация:
    14 сен 2014
    Сообщения:
    166
    Вот просто в браузере вижу код, вижу что там есть айди, которые нужно собрать. А в окне задания границ этот код не загружается(( Что не так делаю?
     
  6. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    497
    [​IMG]
    Как-то так.
     
  7. weresa

    weresa Member Пользователи

    Регистрация:
    14 сен 2014
    Сообщения:
    166
    Мои действия полностью идентичны. Но ...
    [​IMG]
     
  8. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    497
    Проверьте правильность настроек - может что-то поменяли
    [​IMG]
     
  9. weresa

    weresa Member Пользователи

    Регистрация:
    14 сен 2014
    Сообщения:
    166
    И правда ведь! У меня через WBApp парсилось до этого, сейчас убрала и все загрузилось) мерси громадное!
     
  10. Limod

    Limod Member Пользователи

    Регистрация:
    14 июл 2018
    Сообщения:
    26
    Добрый день!
    Не хочется засорять форум одинаковыми темами. Вопрос по этому же сайту.
    weresa спасибо огромное что все разъяснила как что и куда, но осталось 2 вопроса.
    1) Как парсить без WBApp конечный результат Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! ? Не получается даже границу парсинга настроить, в нижнем окне (где браузер) при нажатие на нужные словосочетания ничего не подсвечивает. Ну и соответственно если настроить через WBApp границу парсинга, то без него парсит пустые ячейки.
    2) Собирает всего 74521 компанию, хотя на сайте заявлено 164 431 учреждений . Как собрать все?
    Помогите новичку)
     
  11. xLime

    xLime Well-Known Member Супер Модератор Модератор

    Регистрация:
    4 сен 2017
    Сообщения:
    372
    Обратите внимание на сообщение #4
     
  12. Limod

    Limod Member Пользователи

    Регистрация:
    14 июл 2018
    Сообщения:
    26
    Я посмотрел еще раз этот пункт , но не увидел ответа на свой вопрос. Я этот этап прошел. я спарсил ID регионов и ID учреждений , все как нужно поставил и все как бы парсится ... Но!
    1) Как парсить без WBApp конечный результат Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! ? Не получается даже границу парсинга настроить, в нижнем окне (где браузер) при нажатие на нужные словосочетания ничего не подсвечивает. Ну и соответственно если настроить через WBApp границу парсинга, то без него парсит пустые ячейки.
    2) Собирает всего 74521 компанию, хотя на сайте заявлено 164 431 учреждений . Как собрать все?
     
  13. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    11.778
  14. Limod

    Limod Member Пользователи

    Регистрация:
    14 июл 2018
    Сообщения:
    26
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! вот ссылка на учреждение в "Полной информации об учреждении"
     
  15. Limod

    Limod Member Пользователи

    Регистрация:
    14 июл 2018
    Сообщения:
    26
    2) Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! [/QUOTE]
    а зачем сканер сайтов? Мы подставляем значения id в шаблон границы списка ссылок Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! , перед этим собрав все id учреждений и добавив их в {key}
     
  16. xLime

    xLime Well-Known Member Супер Модератор Модератор

    Регистрация:
    4 сен 2017
    Сообщения:
    372
    Используйте API.
    [​IMG]
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
     
    Limod нравится это.
  17. Limod

    Limod Member Пользователи

    Регистрация:
    14 июл 2018
    Сообщения:
    26
    в таком виде парсить? Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    а, как быть с тем что не находит все учреждения? Собирает всего 74521 учреждений, хотя на сайте заявлено 164 431 учреждений . Как собрать все?
     
  18. Limod

    Limod Member Пользователи

    Регистрация:
    14 июл 2018
    Сообщения:
    26
    Подскажите, когда открываю настроить границу парсинга , то постоянно появляется такие окна с этим нужно что-то делать? или просто закрыть и все?

    [​IMG]
     
    Последнее редактирование модератором: 28 фев 2019
  19. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    11.778
    Вы не дали информацию, как собираете ссылки. Вот и предположил.
     
  20. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    11.778
    Не знаю, не изучал этот сайт
     

Поделиться этой страницей