Парсинг информации с pdf файлов

Тема в разделе "Решение различных задач по парсингу", создана пользователем coolbratan, 27 ноя 2014.

  1. coolbratan

    coolbratan New Member Пользователи

    Регистрация:
    27 ноя 2014
    Сообщения:
    52
    Город:
    Харьков
    Здравствуйте. Есть сайт, на котором вся онформация о продуктах в pdf файлах. Вопрос: как из pdf вынять товары с их характеристиками, ценами и картинками. Я новичек в этом деле и все мои попытки сделать это оказались неудачными. Пробовал даже конвертировать pdf в html, но там информация вся в разброс и без картинок. Образец файла
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    . Помогите пожалуйста, очень нужно!
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    С PDF вам сейчас ничем не могу помочь.
     
    kagorec нравится это.
  3. coolbratan

    coolbratan New Member Пользователи

    Регистрация:
    27 ноя 2014
    Сообщения:
    52
    Город:
    Харьков
    Жаль, что нельзя парсить прямо из цифровых pdf. Пришлось конвертировать в html, и уже оттуда извлекать инфу. Головной боли много, но результат желаемый.
     
  4. Alex

    Alex New Member Пользователи

    Регистрация:
    10 дек 2016
    Сообщения:
    2
    А планируется сделать возможность парсить pdf файлы? Или только через конвертацию в html?
     
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Нет, не планируется.
     
    kagorec нравится это.
  6. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    Сомнительный функционал запрашиваете для программы.

    Вам надо распарсить pdf ?
    Пожалуйста, на это есть решение, переведите документ в html Ссылки недоступны для гостей или в специализированной программе например ABBYY FineReader которая специально для того и создана чтоб обрабатывать pdf...

    Многофункциональность это не значит практичность.
    [​IMG]
     
    JAGUAR и Root нравится это.
  7. Alex

    Alex New Member Пользователи

    Регистрация:
    10 дек 2016
    Сообщения:
    2
    Да, но хотелось бы чтобы я просто вставлял список pdf файлов (например многие регионы РФ публикуют каталоги компаний с гос поддержкой только в pdf) указывал границы и программа бы их сама обрабатывала.

    К варианту с переводом в html мы и сами пришли :)
     

Поделиться этой страницей