Парсинг ссылок с определенным класом

Petrushan · 28 фев 2018

Добрый день.

Прошу помочь в разрешении вопроса, притом хотелось бы именно понимания решения, а не просто тупо кусок кода, т.к. парсингом пользуюсь постоянно.

Итак, задача:
Есть сайт. Необходимо получить ссылки на все страницы товаров, входящих в категорию. При этом, у страниц товаров нет куска url отвечающего за категорию, таким образом, отличить url скажем, страницы новостей и страницы товара невозможно.
Однако, у каждой ссылки, которая нам необходима, есть класс, который и позволяет выделить нужное от не нужного, например:
HTML:
<a href="test.ru" class="good-item__link">
Решаем:
Указываем стартовый URL.
Дальше мысль такая: сборщик ссылок будет проходить все страницы со стартовой (коих достаточно много, но это не так важно) и в случае, если он будет находить ссылку с классом «good-item__link» то, будет добавлять её в список выдачи ссылок. И вот тут у меня затуп.
Насколько я знаю, многоуважаемый Root сделал в сканере сайтов возможность поиска-замены, в том числе для исходного кода выдачи ссылок. И это, скорее всего, именно то, что мне нужно, т.к. читая форум я видел указание Root на этот элемент. Однако, я не совсем понимаю, что именно подается на входе в эти поля, и наверное, в этом вся проблема.

Итак,

Если я правильно понимаю, то
A: Нужна для того, чтобы можно было работать с ссылками в списке очереди. На входе -
Код:
http://test.ru
B: Нужна для того же самого, только со ссылками в списке выдачи. На входе -
Код:
http://test.ru
C: Нужня для того, чтоб можно было что-либо менять в исходном коде страницы. На входе - полный исходный код страницы
D: Вот тут я вообще не понимаю, что это. Логично было бы представить, что это полный код страницы, который висит в памяти перед моментом сканирования ссылок, но, у меня не получилось подтвердить эту теорию.
E: Вроде бы, на входе подается ссылка, притом, без доменного имени, т.е.
Код:
/test/
F: Вот тут самое интересное. На входе (Вроде бы) полностью тег A
Код:
<a href="http://test.ru" class="test">
Что делать с E и F - ума не приложу, т.к. перепробовал кучу вариантов, но ничего не подходит.

Спасибо большое!

Root · 27 фев 2018

Здравствуйте.
Код:
class="test"{skip}<|<[MARKER]{skip}[REV]
<[MARKER]{get}>|{multiget}
Поиск-замену использовать в окне с пометкой F

xLime · 27 фев 2018

Если я правильно понимаю, то сначала применяется функция замены из зоны С для исходного кода веб-страницы.
Затем, этот код (после замены из зоны С) делится соответственно на 2 перед зеленым квадратом согласно картинки ниже из инструкции:

Прошу root'a прокомментировать. Тоже не до конца понятна последовательность.

Root · 27 фев 2018

Правильно

Root · 27 фев 2018

Petrushan · 27 фев 2018

Огромное спасибо, Root и XLime!

Войти или зарегистрироваться

Парсинг ссылок с определенным класом

Petrushan New Member Пользователи

Root Администратор Администратор

xLime Well-Known Member Супер Модератор Модератор

Root Администратор Администратор

Root Администратор Администратор

Petrushan New Member Пользователи

Парсинг картинок с определенным инетрвалом

Парсинг ссылок с определенным текстом

Парсинг ссылок

Собрать ccылки на тематические форумы либо отзовики

Парсинг ссылок с Яндекс Маркет

Поделиться этой страницей

Войти или зарегистрироваться

Парсинг ссылок с определенным класом

Petrushan New Member Пользователи

Root Администратор Администратор

xLime Well-Known Member Супер Модератор Модератор

Root Администратор Администратор

Root Администратор Администратор

Petrushan New Member Пользователи

Парсинг картинок с определенным инетрвалом

Парсинг ссылок с определенным текстом

Парсинг ссылок

Собрать ccылки на тематические форумы либо отзовики

Парсинг ссылок с Яндекс Маркет

Поделиться этой страницей

Быстрый поиск