Как раскодировать HTML символы и мнемоники

Тема в разделе "Функции и интерфейс программы", создана пользователем Lil, 8 июл 2021.

  1. Lil

    Lil New Member Пользователи

    Регистрация:
    5 окт 2017
    Сообщения:
    31
    Город:
    Санкт-Петербург
    Здравствуйте! Уверена, что проблема стандартная, но обсуждения по ней не нашла.

    Дано: стандартный магазин товаров на bitrix
    Задача: спарсить товар и его характеристики по столбцам
    Процесс: взяла блок с характеристиками в границу парсинга, потом разбираю их в повторяющейся границе.
    Проблема: В границе парсинга я оставила код страницы, чтобы по <br> разобрать характеристики. Но в итоговой таблице остаются артефаакты кода, который не отличим от текста. Пример: "Обозначение: FA2-4/1BEK-6 6&#40" на самом деле: "Обозначение: FA2-4/1BEK-6 6(6)A 250VAC~5E4"

    Если убираю в границе парсинга код, то получаю чистый текст, но тогда не могу разбить характеристики по столбцам.

    Ссылка на страницу с товаром: Ссылки недоступны для гостей
     
  2. Lil

    Lil New Member Пользователи

    Регистрация:
    5 окт 2017
    Сообщения:
    31
    Город:
    Санкт-Петербург
    Привет всем! Я нашла решение: поставила в настройка границ парсинга "В одну строку" и разбила по столбцам уже в Ёкселе.
    Если кто-то знает как это можно сделать на стороне CD, подскажите, пожалуйста ;)
     
  3. Achronis

    Achronis Well-Known Member Пользователи

    Регистрация:
    30 июл 2020
    Сообщения:
    64
    Город:
    Барнаул
    Здравствуйте!

    То, что вы приняли за артефакты, является закодированными символами, в данном случае это скобки ( ). Для раскодирования можно использовать макрос [HTMLDECODE].

    Прошу:
     

    Вложения:

    Root нравится это.
  4. Lil

    Lil New Member Пользователи

    Регистрация:
    5 окт 2017
    Сообщения:
    31
    Город:
    Санкт-Петербург
    Большое спасибо:)
     
    Root и Achronis нравится это.

Поделиться этой страницей