Убрать все теги кроме пробела

Тема в разделе "Обработка данных при парсинге во вкладке "Контент"", создана пользователем Arless, 13 окт 2015.

  1. Arless

    Arless Member Пользователи

    Регистрация:
    8 фев 2015
    Сообщения:
    108
    Подскажите использую функцию htm to txt чтобы удалить все лишние теги, но при этом удаляются пробелы между словами, как сделать чтобы удалялось все кроме пробелов?
     
  2. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.433
    Адрес:
    Latvia
    Вообщето это правильно что ненужные пробелы удаляет околотеговые.
    Но случаи разные бывают, вот поступите так:
    Уберите галочку htmtotxt, в поиск-замена вставьте удаление тегов регуляркой
    Код:
    re:<[^<>]+>|
     
  3. Arless

    Arless Member Пользователи

    Регистрация:
    8 фев 2015
    Сообщения:
    108
    Не помогло, так же слитно.
    Проект прикрепил.
     

    Вложения:

  4. Arless

    Arless Member Пользователи

    Регистрация:
    8 фев 2015
    Сообщения:
    108
    Сергей, подскажите пожалуйста, что можно сделать?
     
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Это HTML-код таблицы:
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    И вы из него удаляете все теги. Если вы это делаете, естественно, пробелов между словами не будет (их там и не было).

    Нужно либо парсить таблицу вместе с ее HTML-кодом, либо распределять характеристики в отдельные ячейки CSV (для второго варианта проект приложил к сообщению).

    PS: Также можно поиск-заменой заменить некоторые теги на пробелы Ссылки недоступны для гостей (тогда между словами останутся пробелы после удаления тегов, но зачем это нужно, когда таблица характеристик превратится в набор слов).

    С уважением к вам, Сергей...
     

    Вложения:

  6. t@lev@n

    t@lev@n Member Пользователи

    Регистрация:
    16 июн 2014
    Сообщения:
    88
    Вроде понял, что хочет. Тут уже не просто набор слов получится.
    попробуй применить если код всегда как в цитате у рута:
    Код:
    <th{skip}</th>
    </td></tr>|. 
    </td>|: 
    <{skip}>| 
    re:(\s+)| 
    re:^(\s*)(.*?)(\s*)$|$2
     
    Последнее редактирование: 15 окт 2015

Поделиться этой страницей