Можно ли парсить ссылки по классу тега?

Тема в разделе "Фильтры ссылок", создана пользователем drvoodoo, 2 фев 2017.

  1. drvoodoo

    drvoodoo Member Пользователи

    Регистрация:
    30 дек 2016
    Сообщения:
    49
    Подскажите пожалуйста, можно ли собирать ссылки находящиеся в определённом блоке, к примеру:
    <div class="vneshniyurl" param="123" title="текст" itemprop="Итд">
    <a href="Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! ">произвольный текс1</a>
    <a href="Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! ">произвольный текс2</a>
    <a href="Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! ">произвольный текс3</a>
    </div>
    Тоесть находим блок с классом (class="vneshniyurl") и все ссылки внутри собираем.
    Можно такое реализовать?
     
    Dron25 нравится это.
  2. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.624
    Город:
    Сочи
    Здравствуйте.

    В каком модуле программы собираете ссылки? (Вкладка "Ссылки"/сканер сайтов)
     
  3. drvoodoo

    drvoodoo Member Пользователи

    Регистрация:
    30 дек 2016
    Сообщения:
    49
    Речь идёт о сканере сайтов.
     
    Root нравится это.
  4. Dron25

    Dron25 Well-Known Member Пользователи

    Регистрация:
    17 июн 2014
    Сообщения:
    133
    хорошо было бы, если такое реализовать в сканере сайтов
     
    Root нравится это.
  5. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.624
    Город:
    Сочи
    Записал в очередь.
     
    drvoodoo нравится это.
  6. drvoodoo

    drvoodoo Member Пользователи

    Регистрация:
    30 дек 2016
    Сообщения:
    49
    Было бы удобно реализуете это средствами Xpath
     
  7. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.119
    Как самый обычный вариант. Берете вкладку контент и настраиваете повторяющиеся границы.
     
  8. drvoodoo

    drvoodoo Member Пользователи

    Регистрация:
    30 дек 2016
    Сообщения:
    49
    Меня больше интересует на перечень ссылок собрать, а собрать конкретно ссылки из указанного блока.
     
  9. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.119
    Помоему вопрос решается так как я написал, во всяком случае так делаю я. Какой смысл Забирать отдельный блок, практического применения не вижу просто. Хотя возможно он и полезен. Но для абстрактной задачи - не уверен.
    Покажите конкретный пример и для чего это необходимо?
     
  10. drvoodoo

    drvoodoo Member Пользователи

    Регистрация:
    30 дек 2016
    Сообщения:
    49
    Представите себе сайт у которого URLы не имеют логических отличий, то есть состоят из набора произвольных цифр и всё (Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! ). На странице которой нужно собирать ссылки есть куча разнообразных ссылок и отличие есть только в DIVе с определённым классом, именно в этом диве и содержаться ссылки которые мне нужны.
    А необходимо это для того чтобы пробегаться по всему сайту и понаходить все ссылки на товары, чтобы уже дальше собирать контент с них.
     
  11. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.119
    Простите, но пока не увижу реальный пример, даже не буду представлять).
     
  12. drvoodoo

    drvoodoo Member Пользователи

    Регистрация:
    30 дек 2016
    Сообщения:
    49
    Вот как вариант:
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! необходимо собирать внешние ссылки
    Вот блок:
    <div class="h-mb-30 qa-company-info-block">
    <div class="b-text-hider h-mb-15 h-nowrap">
    <a class="h-inline-block h-vertical-middle" href="Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! " target="_blank" onclick="require('Metrics').ga.track_event_at('site_url', 'site_portal', &quot;portal-company_opinions&quot;)" itemprop="url">
    <span itemprop="name">ТОО «Караганда Транс-Уголь»</span>
    </a>
    ...бла бла бла...
    </div>
    </div>

    В данном случае уникальный класс это "qa-company-info-block"
    Если в программе был бы Xpath, то задача заключалась бы в создании правила:
    //div[@class="h-mb-30 qa-company-info-block"]/div[@class="b-text-hider h-mb-15 h-nowrap"]/a
    В общем то и всё.
     
    Последнее редактирование: 4 фев 2017
  13. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.119
    Помоему это оно же?
     

    Вложения:

  14. drvoodoo

    drvoodoo Member Пользователи

    Регистрация:
    30 дек 2016
    Сообщения:
    49
    Отнюдь. Там может быть сколько угодно внешних ссылок, а нужны только те что в этом блоке.
     
  15. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.119
    Все прекращаем дискуссию. Если Root считает что имеет место быть, значит пусть будет так)
     
  16. drvoodoo

    drvoodoo Member Пользователи

    Регистрация:
    30 дек 2016
    Сообщения:
    49
    Позвольте последний пост.
    Вот ещё подобный пример.
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!

    Нужно собрать базы отдыха. Имеем вот такую структуру:
    <ul class="base-list blank clearfix">
    <li class="premium">
    <a href="/diana/">
    <br>
    В пляжной зоне.
    <strong>Детская анимация.</strong>
    От 125 гривен с человека.
    <strong class="premium">Наш совет!</strong>
    </li>
    <li class="premium">
    ....бла бла бал...
    </ul>
    Как видите кроме уникального блока больше и зацепиться не за что.
     
  17. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.119
    Вот
     

    Вложения:

    drvoodoo нравится это.
  18. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.624
    Город:
    Сочи
    2017-02-08_22-36-45.png
     
    drvoodoo нравится это.
  19. Tigr

    Tigr New Member Пользователи

    Регистрация:
    10 ноя 2017
    Сообщения:
    18
    Город:
    Москва
    Не знаю уже есть такая возможность с определенного блока собирать или нет , так как есть сайт там все ссылки на сайте одинаковые и зацепиться не получается и берет весь хлам Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! если была бы такая функция , было бы прекрасно)
     
  20. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.624
    Город:
    Сочи
    Используйте поиск-замену для списка ссылок очереди (как показано выше на скриншоте). С помощью поиск-замены можно взять нужную часть кода.
     
    Tigr нравится это.

Поделиться этой страницей