Парсинг форума

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем Luk, 11 янв 2015.

  1. Luk

    Luk New Member Пользователи

    Регистрация:
    10 янв 2015
    Сообщения:
    1
    Здравствуйте!

    Хочу выполнить загрузку форума. Опыта использования Content Downloader пока нет, попробовал сделать, но сразу возникло несколько вопросов. Для некоторых нашёл обходные пути, но, думаю, что есть более простые способы.
    Опишу свои шаги и вопросы, надеюсь на вашу помощь.
    Форум на phpbb. Интересуют пользователи, форумы, темы, сообщения и вложения. Ещё желательно получить список url всех внешних ссылок (в первую очередь картинок), которые есть на форуме.
    На выходе должно получиться соответствующее количество файлов: members.csv
    forums.csv
    topics.csv
    posts.csv
    attachments.csv
    папка с вложениями

    (topics и posts можно и разбить по форумам/темам, либо в общем файле прописать соответствующие id)

    Возможно ли подобное с помощью CD?
    Нужно ли под каждый тип объекта создавать свой проект или можно в рамках одного это сделать?

    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    Мои действия:
    1. Запускаю сканер сайтов (Ctrl+7)
    2. Ввожу стартовый адрес сайта
    3. Ставлю ограничение на потоки и паузу
    4. В "добавлять в очередь только ссылки с" ввожу следующий список:
    memberlist.php
    profile.php
    viewforum.php
    viewtopic.php
    file
    download
    5. В "не добавлять в очередь ссылки, содержащие" ввожу ограничение на начальную страницу, чтобы по два раза не появлялась:
    start=0&
    viewtopic.php?p=
    6. Эти же параметры прописываю в фильтрах ссылок
    7. Запускаю
    8. Нажимаю "+ ссылки к списку парсинга"

    Теперь у меня есть ссылки. Хотя все эти страницы один раз уже загружал, но при парсинге система их снова будет грузить, правильно?
    Как можно разметить разные типы ссылок, чтобы каждая сохранялась в свой файл?
    Или надо для каждого типа файлов открывать свой проект?
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Поместите в шаблон вывода макросы [CHECKENTRY] (Ссылки недоступны для гостей), которые и будут выбирать нужный код шаблон вывода в зависимости от "текущей" при парсинге ссылки:
    А записать определенную часть кода шаблона вывода в указанный файл можно макросом шаблона вывода [SAVETOFILE] (Ссылки недоступны для гостей).

    С уважением к вам, Сергей...
     

Поделиться этой страницей