Парсинг ссылок с форума, строго с определенной ветки.

Тема в разделе "Парсинг во вкладке "Ссылки"", создана пользователем vavera4ka, 9 сен 2013.

  1. vavera4ka

    vavera4ka New Member Пользователи

    Регистрация:
    28 авг 2013
    Сообщения:
    23
    Доброго всем дня!

    Столкнулся с проблемой настройки парсинга страниц.

    Есть определенная ветка обсуждений , к примеру: Ссылки недоступны для гостей.
    Мне необходимо выпарсить все ссылки на темы, к примеру: Ссылки недоступны для гостей
    Но, затем, по этим ссылкам, выпарсить все страницы темы.
    Глубина тут мб разная, то есть в какой-то темы есть 1-2 страницы, в каких то 80. Как тут быть?
    Сейчас он парсит только те страницы, которые видны с Ссылки недоступны для гостей и т.д.
     
    Последнее редактирование: 9 сен 2013
  2. Rivlex

    Rivlex New Member Пользователи

    Регистрация:
    16 июл 2013
    Сообщения:
    7
    Именно у тут.бая есть карта сайта... даже несколько карт сайта. Может проще сразу оттуда взять все ссылки с "showthread" и не надо ничего парсить будет?
     
  3. vavera4ka

    vavera4ka New Member Пользователи

    Регистрация:
    28 авг 2013
    Сообщения:
    23
    Там нет карты сайта по страницам отдельной темы.
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    В два прохода сделайте:
    1) Собрать все ссылки на первые страницы тем;
    2) Сканером сайтов прошерстить все темы с параметром "добавлять в очередь только ссылки с":
    showthread.php?t=
    &page=
    И включить ЧекБокс и/или
     
  5. vavera4ka

    vavera4ka New Member Пользователи

    Регистрация:
    28 авг 2013
    Сообщения:
    23
    Как я понимаю, первый пункт рекомендуется выполнять парсером, а не сканером сайтов?
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Да.
     
  7. vavera4ka

    vavera4ka New Member Пользователи

    Регистрация:
    28 авг 2013
    Сообщения:
    23
    Так, получилось 65к урлов.

    Куда в сканере их добавлять? :rolleyes:
     
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Интуитивно можно было понять изучив интерфейс окна сканера сайтов:
    Кнопка "редактировать список" или кнопка "добавить ссылки из списка парсинга".
     
  9. vavera4ka

    vavera4ka New Member Пользователи

    Регистрация:
    28 авг 2013
    Сообщения:
    23
    Это то я понял. Вопрос возник потому, что с учетом рекомендованных настроек, добавляются ссылки совсем не те, что я бы желал :)

    А именно, см. скрин.
    [​IMG]


    ПС.
    Мб это дополнительно настраивается в фильтрах?
     
  10. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.432
    Адрес:
    Latvia
    Вы не бойтесь познавать самостоятельно.
    Судя по скрину надо "удалять параметр" s и укажите чтотнадо ссылки содержащие только
    для списка очереди и указать в фильтре ссылок итоговых.
    а также добавьте в фильтре исключение по словам
     
  11. vavera4ka

    vavera4ka New Member Пользователи

    Регистрация:
    28 авг 2013
    Сообщения:
    23
    Вроде бы разобрался, благодарю :)
     
  12. vavera4ka

    vavera4ka New Member Пользователи

    Регистрация:
    28 авг 2013
    Сообщения:
    23
    Парсер ссылок понимает регулярные выражения? Если да то в каком виде их нужно прописывать в шаблоне
     

Поделиться этой страницей