Как применяются фильтры ссылок?

Тема в разделе "Сбор ссылок сканером сайтов", создана пользователем pablo, 17 авг 2021.

  1. pablo

    pablo New Member Пользователи

    Регистрация:
    3 мар 2017
    Сообщения:
    11
    Подскажите общий принцип работы с фильтрами (поиск-замена).
    Я начинаю парсить сайт, вижу, что в списке очереди появляются ссылки-дубли, типа таких
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей

    Делаю фильтр, для удаления страницы Ссылки недоступны для гостей с любыми параметрами.
    Очередь списка -> Поиск-замена ->Поиск-замена для ссылок очереди списка

    Вопрос: этот фильтр будет применяться для всех ссылок, которые уже есть в очереди или только для новых ссылок, которые в очередь будут добавляться?


    И как вообще наиболее рационально собирать ссылки с сайтов, ведь до начала парсинга на больших сайтах не знаешь, какие редиректы\дубли страниц появятся. Задача - собрать просто все внешние ссылки с сайта.
     
  2. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.433
    Адрес:
    Latvia
    Рекомендуется настраивать фильтр ссылок (ctrl+3) разрешая только то что нужно, это первое поле.
    И настраивается\корректируется постепенно когда работает сканер или сбор ссылок со вкладки "ссылки".
    После как добавили\изменили фильтр ссылок и у вас уже собран добротный список ссылок - правый клик по списку и выбрать "применить фильтр ссылок".

    Ссылки недоступны для гостей - Подробная справка о фильтре
     
    pablo нравится это.
  3. pablo

    pablo New Member Пользователи

    Регистрация:
    3 мар 2017
    Сообщения:
    11
    Спасибо, попробовал, но получил несколько не то, что рассчитывал :(

    1. Приостановил работу сканера
    2. В этот момент очистился список очереди :(
    2. Соответственно "применить фильтр ссылок" не к чему :(

    Нажал опять "начать\продолжить" - обнулился список собранных ссылок. Что я делаю не так?
    Настройки на скрине, перед этим сканер работал больше суток, 100к ссылок обработаны были

    upload_2021-8-17_12-38-18.png
     
  4. pablo

    pablo New Member Пользователи

    Регистрация:
    3 мар 2017
    Сообщения:
    11
    Вот эти фильтры одинаково отрабатываются во время работы сканера ссылок? Можно просто во время работы добавлять туда исключения и они автоматически будут применяться на все последующие найденные ссылки?

    В основном окне сканера сайтов:

    upload_2021-8-17_12-50-48.png


    И в Сканер сайтов -> фильтры ссылок

    upload_2021-8-17_12-51-48.png
     

Поделиться этой страницей