Регулярные выражение в сканере сайтов

Тема в разделе "Сбор ссылок сканером сайтов", создана пользователем apatin, 9 окт 2017.

  1. apatin

    apatin New Member Пользователи

    Регистрация:
    20 сен 2017
    Сообщения:
    13
    Добрый вечер.
    Вообщем у меня есть страница категории, url 1-ого уровня, и на ней есть постраничная навигация. Страница товара это всегда url второго уровня.
    И вот я задаю параметры где искать ссылки - Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! тут все вроде ок, в очередь попадает что надо
    Вот я задаю параметры какие ссылки отбирать - Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! Тут начинаются проблемы, как помним мне нужны ссылки только второго уровня. Как только я не пробовал писать это регулярное выражение, пробовал без экранирования, пробовал вместо (.+?) писать (.*) ничего не помогало, в результат вместе с тем что мне нужно, попадает много лишнего - Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! и есть ссылки третьего и т.д. уровней. Такое ощущение что он игнорирует символ /
    Но когда я пишу одновременно ^ и $ то все ссылки пропускает.
     
    Последнее редактирование модератором: 9 окт 2017
  2. xLime

    xLime Well-Known Member Пользователи

    Регистрация:
    4 сен 2017
    Сообщения:
    222
    apatin нравится это.
  3. apatin

    apatin New Member Пользователи

    Регистрация:
    20 сен 2017
    Сообщения:
    13
    Добавил, помогло =) А на будущие, почему по моему способу не получалось?
     
  4. xLime

    xLime Well-Known Member Пользователи

    Регистрация:
    4 сен 2017
    Сообщения:
    222
    Изучите помощь по регулярным выражениям.
    Используйте внутренний редактор Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! для тестов РВ.

    Конкретный пример с ограничением глубины ссылок с помощью РВ смогу привести завтра. Пишу с планшета, под рукой нет программы.
     
    Последнее редактирование: 10 окт 2017
    Root и apatin нравится это.
  5. apatin

    apatin New Member Пользователи

    Регистрация:
    20 сен 2017
    Сообщения:
    13
    Спасибо с помощь. С удовольствием завтра посмотрю на Ваш рабочий пример)
     
    Root нравится это.
  6. xLime

    xLime Well-Known Member Пользователи

    Регистрация:
    4 сен 2017
    Сообщения:
    222
    re:/[^/]+/[^/]+/
    http://forum.sbfactory.ru/threads/reguljarnye-vyrazhenie-v-skanere-sajtov.5554/#post-32417/
    http:/reguljarnye-vyrazhenie-v-skanere-sajtov.5554/#post-32417/

    re:/[^/]+/[^/]+/$
    http://forum.sbfactory.ru/threads/reguljarnye-vyrazhenie-v-skanere-sajtov.5554/#post-32417/
    http://forum.sbfactory.ru/threads

    Обрати внимание на наличие '/' в конце ссылки.

    re:/[^/]+/[^/]+|
    http://forum.sbfactory.ru/threads/reguljarnye-vyrazhenie-v-skanere-sajtov.5554/#post-32417
    http:/

    re:/[^/]+/[^/]+\d+
    http://forum.sbfactory.ru/threads/reguljarnye-vyrazhenie-v-skanere-sajtov.5554/#post-32417
    http://forum.sbfactory.ru/#post-32417

    re:/[^/]+/[^/]+\d+$
    http://forum.sbfactory.ru/threads/reguljarnye-vyrazhenie-v-skanere-sajtov.5554/#post-32417
    http://forum.sbfactory.ru/threads

    Если ссылка имеет в конце '/', то для задания глубины = 2, использую следующую РВ
    re:\.ru/[^/]+/$
     
    Последнее редактирование: 10 окт 2017
    kagorec, apatin и Root нравится это.

Поделиться этой страницей