Парсинг таблицы характеристик

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем korvin01, 17 ноя 2015.

  1. korvin01

    korvin01 New Member Пользователи

    Регистрация:
    8 сен 2015
    Сообщения:
    2
    Добрый день!

    Задача такая.
    Есть pdf файл с таблицей характеристик. Делаю экспорт в html и получаю файл на жестком диске. Дальше характеристики нужно будет спарсить в CSV.
    Далее вставляю ссылку на файл в CD. Т.к. файлик на жестком диске - она выглядит так:
    C:\Users\Dima1\Documents\tech.html
    В предпросмотре таблица есть, а наверху пишет такое:
    Программе не удалось загрузить WEB-страницу (Socket Error # 11001 Host not found).

    Как вариант, можно загрузить на сервер. Но реально ли обойтись без этого?
     
  2. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    10.873
    Город:
    Сочи
    Здравствуйте.

    Приложите к сообщению ваш файл проекта (в программе: меню - файл - сохранить проект).

    Спасибо!
     
  3. korvin01

    korvin01 New Member Пользователи

    Регистрация:
    8 сен 2015
    Сообщения:
    2
    Добрый день!

    Все заработало. Брал из хрома при двойном наведении ссылку:
    file:///C:/jar/outputDirectory/mhi_catalogue_2015/40.html - так не работает.
    C:\jar\outputDirectory\mhi_catalogue_2015\40.html - так работает.

    И возник вопрос по кодировке.
    По данной ссылке вместо русского языка вылезают непонятные символы.
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    При попытки задать границы парсинга.
     

    Вложения:

  4. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    10.873
    Город:
    Сочи
    Выберите кодировку UTF-8 (проект приложил).

    А на нехорошие знаки вопросов в начале документа внимание не обращайте (это проблема сайта).
     

    Вложения:

Поделиться этой страницей