Как распознать японские иероглифы, чтобы их исключить макросом поиск-замена?

Тема в разделе "Шаблон вывода", создана пользователем Michel_S_1958, 13 авг 2015.

  1. Michel_S_1958

    Michel_S_1958 New Member Пользователи

    Регистрация:
    8 июн 2015
    Сообщения:
    38
    1. Задача:
    Нужно спарсить наименование товара со страницы японского сайта.
    2. Имеем следующую конструкцию в коде сайта:
    <meta name="Keywords" content="Canon (キヤノン) EOS 6D EF24-105L レンズキット,中古,買取,買取り,下取,下取り,委託" lang="ja" xml:lang="ja" />
    3. В итоге парсинга нужно получить:
    Canon EOS 6D EF24-105L
    4. Начало границы парсинга определяется стандартным образом:
    <meta name="Keywords" content="
    А вот с концом парсинга проблема....дело в том, что текст из иероглифов после англоязычного названия на разных страницах сайта всегда разный или вообще отсутствует....вот, если бы был макрос определения иероглифов как знаков, чтобы их исключить макросом поиск-замена....

    Может у кого-то есть мысли на счет решения данной задачи?
     
  2. Michel_S_1958

    Michel_S_1958 New Member Пользователи

    Регистрация:
    8 июн 2015
    Сообщения:
    38
    Пока никто не ответил, поизучал материалы с кодировкой символов в UTF-8. Потом посмотрел главу "Синтаксис регулярных выражений" из справочного материала программы Content Downloader, где есть возможность определить кодировку символа. И так как кодировка английских символов, цифр и специальных символов (ASCII-7) в UTF-8 вся однобайтная, в отличии от японских иероглифов, то возникла мысль. Чтобы решить мою задачу, нужно макросом поиск-замена удалить, используя регулярные выражения, все символы, имеющие кодировку больше однобайтной. Тогда останутся только английские символы, цифры и всякие знаки типа тире, что и требуется в моем случае.
    Одна беда. У меня нет знаний в области использования регулярных выражений.
    Подскажите, пожалуйста, что нужно прописать в макросе поиска-замены, чтобы удалить все иероглифы.
    Спасибо заранее.
     
  3. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.432
    Адрес:
    Latvia

Поделиться этой страницей