[DOCSOURCE] и все HTML-символы

Тема в разделе "Решение различных задач по парсингу", создана пользователем dansokolov, 7 апр 2015.

Метки:
  1. dansokolov

    dansokolov New Member Пользователи

    Регистрация:
    31 июл 2011
    Сообщения:
    12
    Добрый день!
    Помогите, пожалуйста, решить задачу.
    Я имею урл и хочу посчитать на нем количество символов текста без html-разметки.
    Как вычистить всю html разметку из docsource?
    Я попробовал использовать регэксп в EXCLUDE у CHARCOUNT при подсчете
    PHP:
    [CHARCOUNT][EXCLUDE] |re:<script.*?script>|re:<*.?>[/EXCLUDE][DOCSOURCE][/CHARCOUNT]
    , то по-моему регэксп там не работает.
    Также я попробовал использовать рег.выражения в [CLEAR] -
    PHP:
    [CHARCOUNT][DOCSOURCE][CLEAR]re:<script.*?script>[/CLEAR][CLEAR]re:<script.*?[/CLEAR]>[CLEAR]re:<*.?>[/CLEAR][/CHARCOUNT]
    , но так тоже ничего не получилось, кол-во символов не меняется.

    Подскажите, пожалуйста, как правильно это сделать?
     
  2. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.433
    Адрес:
    Latvia
    DELTAGS макросом удалите теги ненужные он вроде работает первее CHARCOUNT
     
  3. dansokolov

    dansokolov New Member Пользователи

    Регистрация:
    31 июл 2011
    Сообщения:
    12
    Спасибо большое, html весь отфильтровался, джаваскрипт поиск-заменой убрал.
    :clap:
     

Поделиться этой страницей