Парсить HTML текст на немецком, где есть умляуты

Тема в разделе "Решение различных задач по парсингу", создана пользователем Shlika, 31 май 2021.

  1. Shlika

    Shlika New Member Пользователи

    Регистрация:
    1 фев 2019
    Сообщения:
    6
    Город:
    Rösrath
    Доброго времени суток!

    помогите решить проблему. Никак не могу спарсить текст на немецком...дело в том, что он разделяется по строчкам так как в HTML тексте присутствует умляуты (ä ü ö ß). И в тексте они выглядят следующим образом: "auml;" - ä. И поскольку присутствует ";", то текст разделяется на строчки...

    Как быть?
     
  2. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.433
    Адрес:
    Latvia
    В глобальную поиск-замена добавьте построчно замены:
    Код:
    auml;|ä
    и т.д.
     
  3. Shlika

    Shlika New Member Пользователи

    Регистрация:
    1 фев 2019
    Сообщения:
    6
    Город:
    Rösrath
    Благодарю! Этот способ я использовал (работает на "отлично"). Но если в коде есть другие значения, которые заканчиваются на ";", то в этом случае происходит разделение на ячейки. Получается, теперь каждый раз нужно прописывать в "поиск-замена" коды? Или же есть какой то другой способ?
     
    Root нравится это.
  4. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.433
    Адрес:
    Latvia
    Вероятно поможет:
    Дополнительные функции обработки контента > Другое > заменять HTML мнемоники на их символы
    или
    В поиск-замена для границы добавьте {htmldecode}
     
    Root нравится это.

Поделиться этой страницей