Как спарсить только ссылки с цифрами и как искать ссылки только в определенной части WEB документа

Тема в разделе "Сбор ссылок сканером сайтов", создана пользователем Djahat, 17 фев 2020.

  1. Djahat

    Djahat Well-Known Member Пользователи

    Регистрация:
    14 янв 2013
    Сообщения:
    543
    Город:
    Мордор
    Всем привет
    Хотел спросить по технике настройки фильтров в сканере сайтов:
    При сканировании
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    Выдает множество ссылок, но мне нужны только такие: у них на конце между двумя слешами, только цифры всегда.

    Я так понимаю, это можно отфильтровать за счет регулярки re: (правда я не знаю как такое построить выражение) и включить его верно в поиск замену

    /catalog/konturnye-svetilniki/85539/
    /catalog/konturnye-svetilniki/vetilniki/85439/
    /catalog/konturnye-svetilniki/konturnye10/konturnye2/852/
    /catalog/8/
    /catalog/svetilniki/85539223/


    2) Момент:

    Как то можно сделать так, что бы сканер сайтов, искал ссылки для выдачи ссылок, не во всем документе, а только в определенном DIV
    Ограничить область поиска ссылок в определенной части кода страницы. То есть, производить поиск ссылок не во всем коде документа, а в заданных мной границах парсинга.
    Так было бы проще отсекать ссылки на товары от других ссылок, (в разных проектах), что бы не писать отдельный проект на парсинг ссылок на товары.
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    У меня вот накапливается и уже начинает дико бомбить.

    Я далее буду говорить не лично о вас, а вообще про печальную ситуацию в обществе.

    Перед созданием тем люди вообще не хотят подумать головой и почитать систему помощи.

    Скажите, разве сложно прочитать и понять, в данном случае, всего два абзаца.

    Что это, лень или что.

    Зачем поощрять лень. Ну ленятся люди, ну мало им написанной системы помощи, правильно, зачем ее читать. Давайте людям будет на блюдечке лично информацию указывать в персональном порядке.

    Это никуда не годится, реально.

    Еще раз говорю, к вам лично никаких претензий нет, обращение ко многим, так как ситуация плохая.
     
  3. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Уже настолько все разжевано, как можно умудряться не находить нужную информацию...

    2020-02-17_08-15-21.png
     
    Djahat нравится это.
  4. Reset

    Reset Active Member Пользователи

    Регистрация:
    16 дек 2013
    Сообщения:
    114
    Код:
    re:\d{1,}\/$
    
     
    Djahat и Root нравится это.
  5. Djahat

    Djahat Well-Known Member Пользователи

    Регистрация:
    14 янв 2013
    Сообщения:
    543
    Город:
    Мордор
    Как много злобы в мире )))
    И тупых тоже много, слава богу Вы знаете и помогли мне убогому))
    Спасибо
    теперь и я знаю )
     
  6. Reset

    Reset Active Member Пользователи

    Регистрация:
    16 дек 2013
    Сообщения:
    114
    На самом деле я вьезжал в регулярки довольно долго, хотя сейчас понимаю что если б вживую обьяснили то заняло б часа 2 :)
     

Поделиться этой страницей