Возможно ли както вытянуть данные если ссылка открывает pdf?

Тема в разделе "Решение различных задач по парсингу", создана пользователем Avem, 12 окт 2021.

  1. Avem

    Avem Member Пользователи

    Регистрация:
    30 дек 2020
    Сообщения:
    35
    Здравствуйте.

    Есть такая ситуация... Я спарсил список ссылок чтобы вытянуть название фирмы и электронный адрес но каждая ссылка открывает в браузере document.pdf в котором эти данные видны. Есть ли какая нибудь возможность этот документ распарсить, может через webAPP или ещё как?

    прилагаю ссылку на результат.

    Уберите пробел перед GOV в ссылке
    Код:
    https://corp.sos.ms. gov/corpconv/portal/c/ExecuteWorkflow.aspx?workflowid=g12dbd558-fa5d-49a1-a869-ad8b9db198db&FilingId=61529e7e-36b8-47fc-98f8-ea5bd89b1d2d
    Благодарю.
    Всего хорошего!
     
  2. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    867
    Добрый вечер

    Смотрите в сторону OCR систем распознавания, типа FineReader и ему подобные
     

Поделиться этой страницей