Как оставить часть кода.

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем Zander, 24 сен 2015.

  1. Zander

    Zander New Member Пользователи

    Регистрация:
    12 окт 2011
    Сообщения:
    12
    Мне надо спарсить сайт с документацией по программированию. Соответственно, в некоторых статьях встречается "полезный "HTML код.
    Он заключен в теги <pre></pre>,
    А внутри этих тегов может быть какие угодно другие теги.
    Как сделать так, чтобы при очистке страницы от кода, исключить из этого процесса все, что внутри тегов <pre>?
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Какой функцией чистите страницы от кода?

    С уважением к вам, Сергей.
     
  3. Zander

    Zander New Member Пользователи

    Регистрация:
    12 окт 2011
    Сообщения:
    12
    HTML:
    [HTMTOTXT:h1,h2,h3,strong,b,i,ul,li,p,br,pre,code,dl,dt,dd]
    А в тех участках, которые внутри <pre> надо эту очистку выключить совсем.

    Напрашивается регулярное выражение, но мне кажется оно будет очень сложным...
     
    Последнее редактирование: 24 сен 2015
  4. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.442
    Адрес:
    Latvia
    Оставьте как есть, после чего уже ручками поправите в сайте.
     
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Постараюсь сделать решение в ближайшие пару дней.
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте еще раз.

    Доработал макрос [HTMTOTXT]
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    Теперь можно указывать область, которую не затрагивать, в [EXCLUDE]
    С уважением к вам, Сергей.
     
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Ссылки недоступны для гостей
     
  8. Zander

    Zander New Member Пользователи

    Регистрация:
    12 окт 2011
    Сообщения:
    12
    Спасибо! Пока еще не проверил, искал другие варианты, но это будет выглядеть гораздо элегантнее!

    Еще вопрос из того же проекта: [HTMTOTXT] удаляет вхождения "экранов" &lt; &gt;
    Пробовал вставить их в список исключаемых тегов, не берет :)
    Тогда использовал [DELTAGS], с ним все нормально.
    Просто подумалось, что гибкость была бы выше, если бы и [HTMTOTXT] принимала их как исключения (как и теги, списком).
     
  9. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Доработал:
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    Также необходимо отключить функцию преобразования HTML мнемоников в: вкладка "Контент" -> группа "Парсинг и обработка" -> кнопка "дополнительные функции обработки контента".

    С уважением к вам, Сергей.
     

Поделиться этой страницей