Задание границ парсинга

Тема в разделе "Решение различных задач по парсингу", создана пользователем vladimir4000, 11 июн 2020.

  1. vladimir4000

    vladimir4000 Member Пользователи

    Регистрация:
    25 авг 2017
    Сообщения:
    119
    Тема закрыта.
     
    Последнее редактирование: 12 июн 2020
  2. ITz

    ITz Member Пользователи

    Регистрация:
    31 янв 2020
    Сообщения:
    43
    Город:
    Third Rome
    решил не открывать новую тему, а продолжить эту т.к. заголовок темы соответствует..

    прошу подскажите имеем следующий пример:
    <тэги>OR 158 Оранжевый светлый</тэги>

    мне необходимо спарсить только текст "Оранжевый светлый", как можно задать границы парсинга и пропустить два пробела? конструкция c двумя {skip} не работает, можно как-то подругому вытащить этот текст?
     
  3. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Не правда, работает.

    Код:
    <тэги{skip} {skip} 
    2020-08-18_05-26-49.png
     
  4. ITz

    ITz Member Пользователи

    Регистрация:
    31 янв 2020
    Сообщения:
    43
    Город:
    Third Rome
    да в обычных границах работает а как быть с повторяющимся границами?

    я временно решил задачу используя один скип и регулярные выражения в поиск-замене, что-бы убрать все цифры из текста, но это не самый лучший способ т.к. удаляет все цифры из текста, которые все таки иногда встречаются в тексте строки.
     
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Ссылки недоступны для гостей

    Поиск-заменой:
    Код:
    {skip} {skip} |
    Используется в настройках повторяющихся границ парсинга (ctrl+5)
     
  6. ITz

    ITz Member Пользователи

    Регистрация:
    31 янв 2020
    Сообщения:
    43
    Город:
    Third Rome
    работает супер, спасибо!

    в этой конструкции появилась другая проблема, сжимались нужные пробелы после запятых:
    оранжевый светлый,жёлтый,жёлтый чистый,жёлто-зелёный,желтовато-зелёный насыщенный

    получилось поправить добавив макрос REPLACE в основном шаблоне вывода
    Код:
    [REPLACE(,|, )]<CD_CYCLE_GRAN_1!>[/REPLACE]
    теперь выводит правильно:
    оранжевый светлый, жёлтый, жёлтый чистый, жёлто-зелёный, желтовато-зелёный насыщенный

    все ок)
     
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Пожалуйста.

    Ничего подобного с пробелами не происходит, если правильно прописать правило поиск-замены.

    2020-08-19_02-21-42.png
     

Поделиться этой страницей