парсинг ссылок если в границе парсинга определенный параметр

Тема в разделе "Автоматизация парсинга", создана пользователем Farkhadov, 19 июл 2022.

  1. Farkhadov

    Farkhadov New Member Пользователи

    Регистрация:
    12 дек 2021
    Сообщения:
    4
    Доброго времени суток!


    Я при помощи сканера сайта получаю нужные мне ссылки (с сайта yeniemlak.az) на объекты недвижимости.. их около 39000 но мне нужно парсить только те ссылки которые от владельцев недвижимости.. можно ли настроить парсинг полученных ссылок по границе парсинга? или есть какой другой способ


    я планирую сканить данных сайт каждую неделю на наличии новых ссылков и мне нужно чтобы сканер игнорировал те ссылки которые я сканировал ранее… решение которое пришло в голову.. так как конце ссылки объявления присутствует ID объвления (154155) Ссылки недоступны для гостей


    хочу список из ID добавить в фильтр ссылок при сканинге -Не добавлять ссылки содержащие- есть какой другой способ?
     
  2. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.433
    Адрес:
    Latvia
    Настройте фильтр и подключите текстовик для записи спарсенных страниц в Ctrl+T
     
  3. Farkhadov

    Farkhadov New Member Пользователи

    Регистрация:
    12 дек 2021
    Сообщения:
    4
    Здравствуйте!

    Добавил все ссылки с 1-го парсинга в тхт файл и подключил текстовик в Ctrl+T (скрин в аттаче)
    Но при повторном парсинге (1-й был 10 дней тому назад) сканер сайтов не добавил не одной ссылки

    Что я сделал не так?
     

    Вложения:

  4. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.433
    Адрес:
    Latvia
    В актуально версии cd в сканере есть лог, анализируйте.
    п.с. скорее всего источник блокирует
     

Поделиться этой страницей