Как спарсить все нужные ссылки по 1 признаку?

Тема в разделе "Сбор ссылок сканером сайтов", создана пользователем mikle771, 16 мар 2019.

Статус темы:
Закрыта.
  1. mikle771

    mikle771 New Member Пользователи

    Регистрация:
    14 фев 2019
    Сообщения:
    25
    Город:
    Москва
    Нужные мне страницы имеют вид урлов:

    site.ru/porazdel1/view_matematika.php?id=6
    site.ru/porazdel1/uroki-matematika-link.php
    site.ru/porazdel1/matematika-1klass?id=1

    т.е. разный тип, но везде присутствует признак "matematika"

    Ставлю в стартовый урл главную страницу подраздела вида site.ru/porazdel1/
    В "Добавлять в очередь только ссылки с" и в "задать шаблон для ссылок" ставлю matematika.
    В итоге парсится только небольшая часть ссылок. Что я делаю не так.
    Это как то надо регулярками сделать? Там минимум штук 5-6 видов конфигурации урлов и то надо тысячи страниц вручную просмотреть, чтобы точно это узнать.
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    11.578
    Не знаете банальных основ работы сканера сайтов.

    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!

    Там и схема есть и видео и все расписано.
     
    Последнее редактирование: 16 мар 2019
  3. mikle771

    mikle771 New Member Пользователи

    Регистрация:
    14 фев 2019
    Сообщения:
    25
    Город:
    Москва
    Ну конечно я смотрел все эти видео и читал все, что там написано, там в примере как раз парсинг по признакам (/category/) и я так делаю.
    И вообще там основная информация о том, как фильтровать уже найденное, а не как найти все.
    Неужели нельзя было сделать, чтобы без бубна можно было прогой пользоваться?
    Мне нужно спарсить (собрать) все урлы сайта содержащие например слово /literatura/ в урле.
    Я его вбил в "Добавлять в очередь только ссылки с" и в "задать шаблон для ссылок". Стартовой поставил главную страницу подраздела вида site.ru/literatura/. В итоге сканер находит менее 10% от всех урлов содержащий этот признак.
    Что я делаю не так? Вы можете ответить на простой вопрос или техподдержка формальная?
     
    Последнее редактирование: 17 мар 2019
  4. xLime

    xLime Well-Known Member Супер Модератор Модератор

    Регистрация:
    4 сен 2017
    Сообщения:
    371
    Для того чтобы ответить на ваш вопрос, необходимо провести анализ сайта. Такую услугу можете заказать платно в соответствующем разделе.

    Скорее всего, ссылки по которым проходит сканер не содержат в себе все ссылки из раздела /literatura/. Попробуйте убрать это слово из шаблона очереди.
     
  5. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    3.686
    Город:
    Riga
    Предположим надо сменить библиотеку на WIN, и если не дало результатов то пробовать со включенным Wbapp. Это несложно)
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    11.578
    Я вам сразу ответил нужным материалом системы помощи. Вы же проявляете недовольство - плохо!

    Вы не можете или не хотите понять простую схему, которая есть в указанном мною выше материале системы помощи
    [​IMG]

    Где легко понять! Что для фильтрации выдачи ссылок, нужно использовать фильтры ссылок. А вы используете для этого фильтры очереди!

    И вы еще говорите про танцы с бубном. Зачем хаять на меня, если вы понять простых вещей не можете (или не хотите)!

    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    Лично я вам помогать больше не буду (по понятным причинам).

    Всего доброго!
     
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    11.578
    Причем тему с подобным вопросом вы уже создавали http://forum.sbfactory.ru/threads/skaner-parsit-lishnie-ssylki.7248/

    Получили там ответ и, что странно, опять создаете (уже эту) тему, где упираетесь в точно такой же момент (как и в прошлой вашей теме)!

    Я также посмотрел некоторые другие ваши топики. Люди вам помогали, а вы чуть что, на ровном месте, начали наговаривать на программу и поддержку.
     
    Последнее редактирование: 17 мар 2019
    xLime нравится это.
Статус темы:
Закрыта.

Поделиться этой страницей