Парсинг французского текста

Тема в разделе "Решение различных задач по парсингу", создана пользователем Vestmar, 11 июл 2014.

  1. Vestmar

    Vestmar New Member Пользователи

    Регистрация:
    22 мар 2014
    Сообщения:
    21
    Добрый день, после парсинга текста с французских сайтов, все их заковырестые буквы превратились в пробелы... пример вот:

    m dicaments

    кодировка для парсинга UTF-8 стоит.

    Подскажите пожалуйста!
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.
    Кодировку сохраняемого документа поставьте как UTF-8 без BOM (во вкладке "контент").
    С уважением к вам, Сергей.
     
  3. Vestmar

    Vestmar New Member Пользователи

    Регистрация:
    22 мар 2014
    Сообщения:
    21
    UTF-8 без BOM

    И такое ставил, всё равно пробелы)
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Хорошо бы указать URL-адрес проблемной страницы. Я сейчас не понимаю, что вы парсите и не могу помочь...
     
  5. Vestmar

    Vestmar New Member Пользователи

    Регистрация:
    22 мар 2014
    Сообщения:
    21
    Сраница

    ВОТ

    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    причём если включаю WBApp , то мелькает правильно отображенная страница, с французскими буквами) а в итоге по шаблону парсинга сохраняется файли с пробелами, и в окне "предпросмотр элемента" тоже такой же текст...
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Все прекрасно парсится!

    Какая версия программы у вас установлена? (меню - справка - о программе)
     
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Вот даже файл проекта в подтверждение (меню - файл - загрузить проект).
     

    Вложения:

  8. Vestmar

    Vestmar New Member Пользователи

    Регистрация:
    22 мар 2014
    Сообщения:
    21
    Версия последняя, 109977
    ДОШЛО!!!!!! Вот я Вася) шаблон отдельно заказывал, в нём в регулярками все буквы отличные от шаблона - убираются) и в данном случае французские загогулины,

    Спасибо за помощь! Отличный у вас софт!!!

    А подскажите пожалуйста как задать шаблон парсинга что бы из страницы оставались только <p></p> <h1></h1> и т.д.
    я конечно могу потом в notepad регялярными выражениями убрать всё лишнее, но хотелось бы сразу)
     
  9. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Спасибо на добром слове! Очень приятно!

    Используйте макрос шаблона вывода [HTMTOTXT] для этих целей, подробнее читаем тут Ссылки недоступны для гостей

    С уважением к вам, Сергей.
     

Поделиться этой страницей