Как удалить ссылки в спарсенном тексте

Тема в разделе "Разное", создана пользователем mailfix01, 22 мар 2013.

  1. mailfix01

    mailfix01 New Member Пользователи

    Регистрация:
    8 сен 2012
    Сообщения:
    9
    Парсишь текст, но проблема в том, что там есть внутренние и внешние ссылки. Я бы хотел их удалить. Можно конечно использовать html->test тогда теряются заголовки и удаляется много что полезного и нужного. Как быть, как удалить ссылки и оставить только их анкор текстом?
     
  2. nikolas1612

    nikolas1612 Member Пользователи

    Регистрация:
    27 ноя 2011
    Сообщения:
    439
    контент-дополнительно-удалять теги ссылок

    если не поможет - примените регулярки
     
  3. mailfix01

    mailfix01 New Member Пользователи

    Регистрация:
    8 сен 2012
    Сообщения:
    9
    nikolas1612, спасибо помогло.
    А как удалить вот такой мусор "&nbsp" и аналогичный, а также всякие DIV'ы? Только поиском и заменой или еще как то можно?
     
  4. nikolas1612

    nikolas1612 Member Пользователи

    Регистрация:
    27 ноя 2011
    Сообщения:
    439
    именно так. разве что теги DIV лучше удалять функцией htm2txt, а если надо точечно - то макросом [DELTAGS:][/DELTAGS]
     
  5. mailfix01

    mailfix01 New Member Пользователи

    Регистрация:
    8 сен 2012
    Сообщения:
    9
    htm2txt мне не нравиться, тем что он удаляет переносы, маркировки списков, заголовки и т.д.
    Лучше тогда получается автозаменой удалять DIV и мусор типа "&nbsp", чтобы сохранить структуру и вид Html документа.
     

Поделиться этой страницей