Несколько стартовых url в сканере сайтов

Тема в разделе "Парсинг во вкладке "Ссылки"", создана пользователем Evgen-12, 11 сен 2013.

  1. Evgen-12

    Evgen-12 New Member Пользователи

    Регистрация:
    30 май 2013
    Сообщения:
    12
    Адрес:
    Екатеринбург
    Возможно ли задать несколько стартовых url в одном проекте?

    Мне нужно сделать много "маленьких" проектов, в которых будет разница только в стартовых url или, если будет такая возможность, просто задать эти урлы в одном проекте.

    Можно было бы конечно парсить и с вкладки "Ссылки", но с нее определенно процесс парсинга идет дольше, чем в настроенном сканере.
     
  2. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.429
    Адрес:
    Latvia
    [​IMG]

    без проблем, для этого ваши домены нужные перечислите в сканере построчно
    "добавлять ссылки только с"

    и в фильтре ссылок перечислите домены.
     
  3. Evgen-12

    Evgen-12 New Member Пользователи

    Регистрация:
    30 май 2013
    Сообщения:
    12
    Адрес:
    Екатеринбург
    У меня есть довольно много каталогов с разными стартовыми урлами вида: сайт/раздел/порядковая_страница_каталога&имя_каталога&настройки_фильтрации_каталога, где меняется только имя_каталога. Ссылки каталога, которые я хочу спарсить сканером сайтов, имеют в своем урле следующую конструкцию: сайт/раздел/id_ссылки (т.е. путь ко всем ссылкам не зависит от имени каталога). И если отталкиваться от урла с одним именем_каталога, то другие подобные урлы с другими именами_каталога не парсятся. Если бы можно было задать что-то типа {key} вместо имя_каталога (или просто добавить список урлов из сайта), то было бы все просто и быстро.
     
  4. Rivlex

    Rivlex New Member Пользователи

    Регистрация:
    16 июл 2013
    Сообщения:
    7
    А чем не подходит добавить все ссылки в главное окно программы, а уже потом в сканере сайтов нажать на кнопку "добавить ссылки из списка парсинга"?
     
  5. Evgen-12

    Evgen-12 New Member Пользователи

    Регистрация:
    30 май 2013
    Сообщения:
    12
    Адрес:
    Екатеринбург
    Нет, это, к сожалению, мне не подходит: так можно делать, если сразу задать через {num} все "page={num}". Но в этих каталогах разное количество страниц - где-то 1000 а где-то и 2 - соответственно очень долго обрабатывается при таком способе, потому что {num} приходится задавать для всех от 1 до 1000.
    Если же в сканере сайтов задать стартовый урл с "?page=1", при этом допускать в очередь ссылки только с "раздел?page=" и в фильтре ссылок ограничить "сайт*?id" - все ссылки успешно парсятся через номера страниц каталога на сайте и очень резво, добавляя в очередь только ссылки с реально существующими на сайте урлами, содержащими "раздел?page=" (а не заданными через {num}). И вот если бы можно было в сканере сайтов задавать в стартовом урле через {key} имена каталогов, то было бы отлично.
     
  6. Evgen-12

    Evgen-12 New Member Пользователи

    Регистрация:
    30 май 2013
    Сообщения:
    12
    Адрес:
    Екатеринбург
    Использовал макрос {skip} в стартовом урле + хорошо настроил очередь добавления = все получается отлично. Спасибо всем за советы!
     

Поделиться этой страницей