парсить страницы выборочно по html коду

Тема в разделе "Решение различных задач по парсингу", создана пользователем xop, 24 ноя 2021.

  1. xop

    xop New Member Пользователи

    Регистрация:
    7 фев 2017
    Сообщения:
    10
    Здравствуйте,

    дайте пожалуйста ссылку, где почитать как выделить из страниц с нужными url
    только те, которые содержат определенный код.

    например URL фильтр: парсить только страницы в url которых есть /item/
    и одновременно сохранять только те, в теле которых есть код: class="comment_sell">

    спасибо.
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Код:
    <CD_DOCURL!>▒Вывод ссылки
    [CHECKENTRY(/item/)]<CD_DOCURL!>[THENTEXT][ELSETEXT][CLEARDOC][/CHECKENTRY]▒Проверка вхождения в ссылке
    [CHECKENTRY(class="comment_sell">)][DOCSOURCE][THENTEXT][ELSETEXT][CLEARDOC][/CHECKENTRY]▒
    Ссылки недоступны для гостей

    Проект приложил.
     

    Вложения:

  3. xop

    xop New Member Пользователи

    Регистрация:
    7 фев 2017
    Сообщения:
    10
    спасибо!
     
    Root нравится это.
  4. xop

    xop New Member Пользователи

    Регистрация:
    7 фев 2017
    Сообщения:
    10
    а в сканере сайта можно отсечь по html коду?
    а то слишком много страниц...

    если есть такой кусок кода "bla-bla-code" в теле html, то добавляем в выдачу ссылок.
     
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    В сканере нет.

    В чем проблема сделать это во вкладке "Контент"?
     
  6. xop

    xop New Member Пользователи

    Регистрация:
    7 фев 2017
    Сообщения:
    10
    Вы мне дали код для вкладки "Контент", а ссылок то там нет.
    как я понял сначала надо сканером пройтись по всему сайту, а это нереально :(
     
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Решение предоставил в соответствии с поставленной задачей.

    Если ссылок нет, то соберите их.

    Почему нереально - тоже непонятно.

    Хоть бы сайт указали и пояснили детали.
     
  8. xop

    xop New Member Пользователи

    Регистрация:
    7 фев 2017
    Сообщения:
    10
    вопрос решен. спасибо!
     

Поделиться этой страницей