Планировщик и сканер сайтов

Тема в разделе "Парсинг во вкладке "Ссылки"", создана пользователем maxmaster, 10 мар 2014.

  1. maxmaster

    maxmaster New Member Пользователи

    Регистрация:
    1 дек 2012
    Сообщения:
    8
    Здравствуйте.
    Подскажите пожалуйста по фукнционалу программы.

    Задача #1
    Пройти по ссылке и просканировать страницу и собрать все ссылки (Например у меня проект называется 1)

    Проект составлен, сканер сайтов все собирает при запуске планировщика.
    Вопрос: как настроить программу, чтобы после того, как сканер сайтов собрал ссылки он их сохранил в файл например 1.txt ?

    Задача №2
    Ссылки из файла 1.txt загрузить в сканер сайтов и просканировать на другие ссылки.
    Вопрос: как настроить проект, чтобы при запуске из планировщика ссылки из файла 1.txt загружались в сканер сайтов и сохранить эти ссылки в файл 2.txt?

    В последствии из ссылок из 2.txt получить контент (это CD выполняет отлично!)

    Заранее спасибо
     
  2. nikolas1612

    nikolas1612 Member Пользователи

    Регистрация:
    27 ноя 2011
    Сообщения:
    439
    если вам надо собрать ссылки С ОДНОЙ СТРАНИЦЫ (вы ведь написали именно со страницы а не с сайта) - потом собрать ссылки с этих ссылок - и дальше распарсить контент по этим ссылкам - то вы все делаете не так. сканер здесь вообще не при чем, равно как и планировщик.
    в целом же вопрос сформулирован настолько невнятно (вероятнее всего по причине неуверенного владения базовым функционалом программы) - что и ответить на него почти невозможно. только гадать.

    первое впечатление - вы решаете задачу не тем функционалом, который требуется.
     
  3. maxmaster

    maxmaster New Member Пользователи

    Регистрация:
    1 дек 2012
    Сообщения:
    8
    Поясню более подробно.
    Есть сайт например Ссылки недоступны для гостей
    Я сканером с нужными мне фильтрами собираю все ссылки со СТРАНИЦЫ (она динамичная).
    Затем по этим ссылкам я опять сканером собираю ссылки на нужные мне статьи.
    И в конце уже по полученным ссылкам собираю нужный мне контент.

    Все это нужно делать с некой периодичностью, то есть настроить планировщик, чтобы он запускался в определенные промежутки времени.

    Моя основная проблема - я не знаю, как сохранить результаты 2-ух первых парсингов в файлы.
     
  4. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.433
    Адрес:
    Latvia
    Первая настройка: сканит пагинацию и потом автоматически парсит по пагинации ссылки на статьи - сохраняет в указанную папку текстовик (со ссылками на статьи)

    Вторая настройка: Настроена на распарсивание целевых страниц. Но вместо списка ссылок содержит функцию просмотра директории на наличие текстовика (который получили от первой настройки)

    Для автоматизации всего процесса:
    Используйте планировщик виндовса (в Win 7 например очень удобный уже по стандарту имеется)
    Описание в справке: Ссылки недоступны для гостей
     
    Последнее редактирование: 10 мар 2014
  5. nikolas1612

    nikolas1612 Member Пользователи

    Регистрация:
    27 ноя 2011
    Сообщения:
    439
    совершенно верно.
    разве что SCANDIR наверно не понадобится, второй проект забирает ссылки из заранее обусловленного текстового файла (который только что создан первым проектом), а по окончании работы второго проекта папка с этим файлом автоматически очищается.

    и все в цикл.
     
  6. shtrek

    shtrek New Member Пользователи

    Регистрация:
    2 фев 2014
    Сообщения:
    5
    Добрый день!
    При запуске планировщика на сканер сайта, список очереди всегда пуст. Подскажите, как зафиксировать там ссылки для конкретного проекта?
     
  7. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.433
    Адрес:
    Latvia
    добавьте ссылки в список очереди у сканера и сохраните проект
     
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    В сканере поставьте галочку "запускать парсинг контента после окончания работы сканера" и тогда ссылки очереди будут сохраняться в проекте. Если такой вариант не устроит (после сканирования контент парсить не надо), то пишите - что-нибудь придумаем.
     
  9. shtrek

    shtrek New Member Пользователи

    Регистрация:
    2 фев 2014
    Сообщения:
    5
    Нет, именно это и нужно, спасибо)
     
  10. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Заходите еще, будем рады помочь!
     

Поделиться этой страницей