Как оставить часть кода.

Discussion in 'Парсинг конкретных сайтов по запросу (ПЛАТНО)' started by Zander, Sep 24, 2015.

  1. Zander

    Zander New Member Пользователи

    Joined:
    Oct 12, 2011
    Messages:
    12
    Мне надо спарсить сайт с документацией по программированию. Соответственно, в некоторых статьях встречается "полезный "HTML код.
    Он заключен в теги <pre></pre>,
    А внутри этих тегов может быть какие угодно другие теги.
    Как сделать так, чтобы при очистке страницы от кода, исключить из этого процесса все, что внутри тегов <pre>?
     
  2. Root

    Root Администратор Администратор

    Joined:
    Mar 10, 2010
    Messages:
    14,818
    Город:
    Барнаул
    Здравствуйте.

    Какой функцией чистите страницы от кода?

    С уважением к вам, Сергей.
     
  3. Zander

    Zander New Member Пользователи

    Joined:
    Oct 12, 2011
    Messages:
    12
    HTML:
    [HTMTOTXT:h1,h2,h3,strong,b,i,ul,li,p,br,pre,code,dl,dt,dd]
    А в тех участках, которые внутри <pre> надо эту очистку выключить совсем.

    Напрашивается регулярное выражение, но мне кажется оно будет очень сложным...
     
    Last edited: Sep 24, 2015
  4. kagorec

    kagorec Администратор Staff Member Администратор

    Joined:
    Jan 3, 2011
    Messages:
    4,442
    Location:
    Latvia
    Оставьте как есть, после чего уже ручками поправите в сайте.
     
  5. Root

    Root Администратор Администратор

    Joined:
    Mar 10, 2010
    Messages:
    14,818
    Город:
    Барнаул
    Постараюсь сделать решение в ближайшие пару дней.
     
  6. Root

    Root Администратор Администратор

    Joined:
    Mar 10, 2010
    Messages:
    14,818
    Город:
    Барнаул
    Здравствуйте еще раз.

    Доработал макрос [HTMTOTXT]
    Hidden Content:
    **Hidden Content: To see this hidden content your post count must be 1 or greater.**
    Теперь можно указывать область, которую не затрагивать, в [EXCLUDE]
    С уважением к вам, Сергей.
     
  7. Root

    Root Администратор Администратор

    Joined:
    Mar 10, 2010
    Messages:
    14,818
    Город:
    Барнаул
    Ссылки недоступны для гостей
     
  8. Zander

    Zander New Member Пользователи

    Joined:
    Oct 12, 2011
    Messages:
    12
    Спасибо! Пока еще не проверил, искал другие варианты, но это будет выглядеть гораздо элегантнее!

    Еще вопрос из того же проекта: [HTMTOTXT] удаляет вхождения "экранов" &lt; &gt;
    Пробовал вставить их в список исключаемых тегов, не берет :)
    Тогда использовал [DELTAGS], с ним все нормально.
    Просто подумалось, что гибкость была бы выше, если бы и [HTMTOTXT] принимала их как исключения (как и теги, списком).
     
  9. Root

    Root Администратор Администратор

    Joined:
    Mar 10, 2010
    Messages:
    14,818
    Город:
    Барнаул
    Здравствуйте.

    Доработал:
    Hidden Content:
    **Hidden Content: To see this hidden content your post count must be 1 or greater.**
    Также необходимо отключить функцию преобразования HTML мнемоников в: вкладка "Контент" -> группа "Парсинг и обработка" -> кнопка "дополнительные функции обработки контента".

    С уважением к вам, Сергей.
     

Share This Page