Можно ли автоматически подгружать сайты в парсинг.

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем JamesHound, 30 авг 2013.

  1. JamesHound

    JamesHound New Member Пользователи

    Регистрация:
    29 авг 2013
    Сообщения:
    8
    Дело в том что у меня парсинг стоит в планировщике задач и через некоторое время автоматически парсит параметры. Можно ли сделать так что бы парсер автоматически вносил в свою базу сайты которые лежат в txt файле ?
     
  2. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    Попробуйте сформулировать вопрос чтоб он был понятен участникам форума тоже, а не только вам.
     
  3. JamesHound

    JamesHound New Member Пользователи

    Регистрация:
    29 авг 2013
    Сообщения:
    8
    Есть проект. Проект выполняется через каждые 20 секунд планировщиком. Возникла задача что бы в проект можно было добавить ссылки из файла не через меню "Добавить ссылки - загрузить из файла" а автоматичеки, не прибегая к этим действиям.
     
  4. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    Вкладка "ссылки"
    возможно поможет "SCANDIR:c:\imya-papki\" и отмеченный пункт "автоматически приступать к парсингу"
    цитата из Ссылки недоступны для гостей
     
    Последнее редактирование: 31 авг 2013
  5. JamesHound

    JamesHound New Member Пользователи

    Регистрация:
    29 авг 2013
    Сообщения:
    8
    Я может немного не так понял но при SCANDIR:c:\imya-papki\ выводятся список файлов которые находятся в папке imya-papki. Тоесть если в папке лежит url.txt со списком адресов вида "http://www.marathonbet.com/ru/live/1401944", функция SCANDIR не прочитает файл url.txt и не внесет список адресов. Собственно задача стоит что бы ссылки заносились в программу.:)
     
  6. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    Как вариант подключить обработчик sitemap.xml и содержимое текстовика это каждая ссылка с метками до и после
    ~~Ссылки недоступны для гостей
    ~~Ссылки недоступны для гостей
    ~~Ссылки недоступны для гостей
    [​IMG]
     
  7. nikolas1612

    nikolas1612 Member Пользователи

    Регистрация:
    27 ноя 2011
    Сообщения:
    439
    1. первый проект через SCANDIR находит файлы в папке и их содержимое сохраняет в другой файл по заранее обусловленной схеме, адресу и названию выходного файла
    2. второй проект извлекает ссылки из только что созданного файла и парсит контент
    3. оба проекта - в планировщик, друг за другом.

    p.s. функция SCANDIR нужна только для ситуаций когда вам заранее известна папка - а какие файлы в ней будут находиться (названия) - не известно.
    если речь идет об одном-единственном файле url.txt - функция сканирования папки не нужна, во вкладке ссылки будет прямая ссылка на файл вида С:\блаблабла\url.txt
    если вы можете заранее преобразовать их к виду <a href="....."> программа найдет ссылки в файле автоматически
    если оставите так, как есть - подключаете обработчик sitemap.xml и задаете произвольные границы поиска ссылок так:
    первая - ://
    вторая - http
    в этом случае из файла будут извлечены все ссылки кроме последней
    ну и далее по обычной программе
     

Поделиться этой страницей