Парсинг ссылок с определенным класом

Тема в разделе "Сбор ссылок сканером сайтов", создана пользователем Petrushan, 26 фев 2018.

  1. Petrushan

    Petrushan New Member Пользователи

    Регистрация:
    22 фев 2018
    Сообщения:
    2
    Город:
    Ульяновск
    Добрый день.

    Прошу помочь в разрешении вопроса, притом хотелось бы именно понимания решения, а не просто тупо кусок кода, т.к. парсингом пользуюсь постоянно.

    Итак, задача:
    Есть сайт. Необходимо получить ссылки на все страницы товаров, входящих в категорию. При этом, у страниц товаров нет куска url отвечающего за категорию, таким образом, отличить url скажем, страницы новостей и страницы товара невозможно.
    Однако, у каждой ссылки, которая нам необходима, есть класс, который и позволяет выделить нужное от не нужного, например:
    HTML:
    <a href="test.ru" class="good-item__link">
    Решаем:
    Указываем стартовый URL.
    Дальше мысль такая: сборщик ссылок будет проходить все страницы со стартовой (коих достаточно много, но это не так важно) и в случае, если он будет находить ссылку с классом «good-item__link» то, будет добавлять её в список выдачи ссылок. И вот тут у меня затуп.
    Насколько я знаю, многоуважаемый Root сделал в сканере сайтов возможность поиска-замены, в том числе для исходного кода выдачи ссылок. И это, скорее всего, именно то, что мне нужно, т.к. читая форум я видел указание Root на этот элемент. Однако, я не совсем понимаю, что именно подается на входе в эти поля, и наверное, в этом вся проблема.

    Итак, View.jpg

    Если я правильно понимаю, то
    A: Нужна для того, чтобы можно было работать с ссылками в списке очереди. На входе -
    Код:
    http://test.ru
    B: Нужна для того же самого, только со ссылками в списке выдачи. На входе -
    Код:
    http://test.ru
    C: Нужня для того, чтоб можно было что-либо менять в исходном коде страницы. На входе - полный исходный код страницы
    D: Вот тут я вообще не понимаю, что это. Логично было бы представить, что это полный код страницы, который висит в памяти перед моментом сканирования ссылок, но, у меня не получилось подтвердить эту теорию.
    E: Вроде бы, на входе подается ссылка, притом, без доменного имени, т.е.
    Код:
    /test/
    F: Вот тут самое интересное. На входе (Вроде бы) полностью тег A
    Код:
    <a href="http://test.ru" class="test">
    Что делать с E и F - ума не приложу, т.к. перепробовал кучу вариантов, но ничего не подходит.

    Спасибо большое!
     
    Последнее редактирование: 28 фев 2018
  2. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.624
    Город:
    Сочи
    Здравствуйте.

    Код:
    class="test"{skip}<|<[MARKER]{skip}[REV]
    <[MARKER]{get}>|{multiget}
    2018-02-27_01-01-29.png

    Поиск-замену использовать в окне с пометкой F
     
    Последнее редактирование: 27 фев 2018
    MaiklWizard, Petrushan и xLime нравится это.
  3. xLime

    xLime Well-Known Member Пользователи

    Регистрация:
    4 сен 2017
    Сообщения:
    222
    Если я правильно понимаю, то сначала применяется функция замены из зоны С для исходного кода веб-страницы.
    Затем, этот код (после замены из зоны С) делится соответственно на 2 перед зеленым квадратом согласно картинки ниже из инструкции:
    [​IMG]
    Прошу root'a прокомментировать. Тоже не до конца понятна последовательность.
     
    Petrushan нравится это.
  4. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.624
    Город:
    Сочи
    Правильно
     
    Petrushan нравится это.
  5. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.624
    Город:
    Сочи
    2018-02-27_11-33-54.png
     
    MaiklWizard, Petrushan и xLime нравится это.
  6. Petrushan

    Petrushan New Member Пользователи

    Регистрация:
    22 фев 2018
    Сообщения:
    2
    Город:
    Ульяновск
    Огромное спасибо, Root и XLime!
     
    Root нравится это.

Поделиться этой страницей