Парсинг в режиме "паука"

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем konfuciy, 4 апр 2014.

  1. konfuciy

    konfuciy New Member Пользователи

    Регистрация:
    10 янв 2013
    Сообщения:
    89
    Подскажите как реализовать
    1. спарсить все ссылки на внешние сайты из топиков нескольких форумов по списку
    2. перейти по этим ссылкам и с них в свою очередь спарсить все ссылки на внешние сайты
    3. и т.д.
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте, пока такого фильтра, чтобы фильтровал все внутренние ссылки и оставлял только внешние (для разных сайтов), нет.
    Придется подождать, пока он появится =)
    Думаю, с неделю, конкретно обещать не могу.
    Спасибо!
     
  3. konfuciy

    konfuciy New Member Пользователи

    Регистрация:
    10 янв 2013
    Сообщения:
    89

    а это в программе есть на автомате?
    2. перейти по этим ссылкам и с них в свою очередь спарсить все ссылки на внешние сайты
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Нет.
     
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Хотя. Поставить в сканере сайтов галочку "запускать парсинг контента после окончания работы сканера". В шаблон вывода поместить [EXTURLS].
    После работы сканера, найденные ссылки начнут обрабатываться во вкладке "контент", где с них будут получены исходящие ссылки.
     
  6. konfuciy

    konfuciy New Member Пользователи

    Регистрация:
    10 янв 2013
    Сообщения:
    89
    это я так понимаю один шаг вглубь на следующие сайты делает программа?
    то есть некий полу-паук можно сказать?
     
  7. konfuciy

    konfuciy New Member Пользователи

    Регистрация:
    10 янв 2013
    Сообщения:
    89
    вообще реализация паука - это было бы очень круто, спрос на него большой - знаю с соответствующего закрытого форума, покупают влет.
    если сделаете такой функционал - можно там об этом сообщить - народ набежит
     
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Вот для этого и сделал...
     
  9. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Сколько раз так переходить надо, бесконечно раз или определенное количество? Более подробно, пожалуйста, опишите задачу.
    Спасибо!
     
  10. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Сегодня-завтра кое-чего еще сделаю и отпишусь в этой теме...
     
  11. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Content Downloader X версии 10.82 (17.04.2014):

    - В сканер сайтов добавлены дополнительные фильтры списка очереди ссылок;
    - Добавлен макрос [DOMEN] для фильтров ссылок (обозначение домена без поддоменов);
    - Несколько других доработок.
     
  12. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    Макрос [DOMEN] равносилен регулярному выражению? Например:
    re:^(.*?){5,6}//www\.sayt\.ru/ :think:
     
  13. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Не понимаю регулярные выражения.
    Например, парсите ссылки со страницы http://forum.sbfactory.ru/showthread.php?t=1848&page=2, макрос [DOMEN] будет давать sbfactory.ru.
    Его нужно применять в случае парсинга не одного сайта, а разных, где нельзя указать в фильтрах ссылок конкретный домен (так как они разные от сайта к сайту).
    Например, вот так: .[DOMEN] можно фильтровать поддомены (обратите внимание на символ точки вначале).
     
  14. konfuciy

    konfuciy New Member Пользователи

    Регистрация:
    10 янв 2013
    Сообщения:
    89
    лучше всего, чтобы настройка была по желанию - бесконечно переходить или конкретное количество раз. пи бесконечно - должно быть периодическое автосохранение результата в файл с настраиваемым периодом автосохранение
     
  15. konfuciy

    konfuciy New Member Пользователи

    Регистрация:
    10 янв 2013
    Сообщения:
    89
    это очень крутой макрос, я его увидел в новой версии, когда обновлялся, вещь :clap:. а здесь в ветке только сейчас прочитал. спасибо
    уже использую вовсю addkeys и domen начну в ближайшее время.
     
  16. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Ссылки недоступны для гостей
     
  17. konfuciy

    konfuciy New Member Пользователи

    Регистрация:
    10 янв 2013
    Сообщения:
    89
    доброго времени, не работали случайно в этом направлении (речь о парсинге по принципу паука)
     
  18. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте, работал и добавил макросы [DOMEN] для фильтров ссылок и для списка очереди сканера сайтов, пожалуйста, настраивайте, как вам угодно...
     
  19. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Если добавить в шаблон фильтров [DOMEN], то он будет парсить только исходящие (внешние ссылки) =)
     
  20. konfuciy

    konfuciy New Member Пользователи

    Регистрация:
    10 янв 2013
    Сообщения:
    89
    да, спасибо, это очень здорово, я пользуюсь, но я немного о другом:


     

Поделиться этой страницей