Добрый день, парсинг страниц на которых нет <p>

Тема в разделе "Решение различных задач по парсингу", создана пользователем Vestmar, 11 фев 2015.

  1. Vestmar

    Vestmar New Member Пользователи

    Регистрация:
    22 мар 2014
    Сообщения:
    21
    Всегад парсил по простому, собирал ссылки с выдачи гуггл, и парсил <p></p> <h2></h2> основные тэги, и хватало, нашёл несколько сайтов, вот пример
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    там текст прямо в <div></div>
    Собственно в чём вопрос, может ли CD как то определять (опишу простым языком)

    допустим логика CD в работе этой странцы:

    -Ага, <div> таааак, тут текст, слова, ссылки, опять текст, НАДО это спарсить! </div>

    Или может кто нибудь накатает мне шаблон на этот сайт)? конечно же НЕ бесплатно, в общем мне нужен текст, относящийся к номенклатуре, нужны <ul><li> соответственно (там могут быть описаны популярные ключ, симптомы и тд) нужны все заголовки, я даже представляю такой вид

    <html>
    <head>
    </head>
    <body>
    <h1>заголовок
    <div>текст тектс текст тектс
    <div>текст тектс текст тектс
    <div>текст тектс текст тектс
    <div>текст тектс текст тектс
    </div>текст тектс текст тектс
    </div>всякая ерунд (которая может быть)
    </div>текст тектс
    </div>текст тектс

    в общем все тэги встолбик, но без (стилей, id, class) в них... а дальше я уже средствами php допарсю)
     
    Последнее редактирование: 11 фев 2015
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Для проверки вхождений в тексте и вывода соответствующего результата, используйте макрос шаблона вывода [CHECKENTRY] Ссылки недоступны для гостей

    Если нужно заказать настройку - Ссылки недоступны для гостей

    С уважением к вам, Сергей...
     

Поделиться этой страницей