Парсить WEB-документы с FTP

Тема в разделе "Решение различных задач по парсингу", создана пользователем Limod, 1 мар 2019.

Метки:
  1. Limod

    Limod Member Пользователи

    Регистрация:
    14 июл 2018
    Сообщения:
    38
    Здравствуйте.
    Не получилось у меня спарсить bus.gov.ru должным образом, так как что бы я не делал выдает 70к учреждений вместо 160к.
    Узнал что есть фтп доступ к этому сайту , где лежать zip папки в которых содержаться XML файлы в которых находится нужная информация.
    Соответственно вопрос как при помощи CD спарсить необходимую инфу?
    ftp://ftp.bus.gov.ru/GeneralInfo/ - тут находятся файл с информацией об учреждениях
    P.S. такой же ftp доступ есть и на госзакупках .
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Инструментов для парсинга WEB-документов по протоколу FTP на данный момент нет и реализация таких пока не планируется.
     
  3. leotop

    leotop Member Пользователи

    Регистрация:
    28 сен 2017
    Сообщения:
    9
    Похоже вот это, то что вам было нужно.
    Ссылки недоступны для гостей
    5 пункт, Общая информация о государственных (муниципальных) учреждениях
    Там около 160 тыс файлов

    Вот только как эту информацию при закупках использовать, пока не понял.
     
  4. Limod

    Limod Member Пользователи

    Регистрация:
    14 июл 2018
    Сообщения:
    38
    Насчет закупок не знаю, почему такой вопрос стал? Данная информация нужна для других целей. Как теперь спарсить из этих файлов информацию?
     
  5. leotop

    leotop Member Пользователи

    Регистрация:
    28 сен 2017
    Сообщения:
    9
    Зависит от того, что есть в наличии из программ и есть ли навыки программирования.

    Если через Content Downloader, то можно их как html тип на своем сайте отобразить и собрать нужное, но это не самый производительный вариант. Если только одно какое-то поле, например контакты, то через grep или подобные утилиты. Для xml вариантов много, в том числе и преобразование в csv
     
    Последнее редактирование модератором: 5 мар 2019
  6. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    867
    Можно же напрямую распаршивать сохраненные html файлы.

    Для bus_gov для работы с xml файлами, их нужно как минимум извлечь из архивов, что даст порядка 400.000 xml файлов
    + не во всех xml указан адрес компании
     
  7. leotop

    leotop Member Пользователи

    Регистрация:
    28 сен 2017
    Сообщения:
    9
    напишите номер xml из архива, не могу найти вручную. Возможно и на сайте адреса нет.

    номера карточки организации в xml нет, есть инн, по которому можно найти информацию.
     

Поделиться этой страницей