Сканер парсит лишние ссылки

Тема в разделе "Сбор ссылок сканером сайтов", создана пользователем mikle771, 17 фев 2019.

  1. mikle771

    mikle771 New Member Пользователи

    Регистрация:
    14 фев 2019
    Сообщения:
    25
    Город:
    Москва
    Урл категории: site.ru/matematika.php
    Урлы внутренних и нужных мне страниц имеют вид: site.ru/view_matematika.php?id=1 и у последующих страниц только цифры меняются.
    Ставлю чебокс добавлять в очередь только ссылки с "view_matematika.php?id="
    но в итоге ищет и то что нужно и до кучи еще всякие страницы которые в урле не имеют ничего похожего.
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Ссылки недоступны для гостей
     
  3. mikle771

    mikle771 New Member Пользователи

    Регистрация:
    14 фев 2019
    Сообщения:
    25
    Город:
    Москва
    Читал и сделал именно как там написано.
     
  4. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.429
    Адрес:
    Latvia
    Приложите проект к сообщению.
     
  5. mikle771

    mikle771 New Member Пользователи

    Регистрация:
    14 фев 2019
    Сообщения:
    25
    Город:
    Москва
    Пробовал на разных сайтах и везде одно и тоже - большинство урлов нужных парсит, но процентов 10-20 лишних.
    Явно что то еще нужно сделать в настройках.
     

    Вложения:

  6. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.429
    Адрес:
    Latvia
    Поправил проект основываясь на справке программы:
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
     

    Вложения:

    mikle771 нравится это.
  7. mikle771

    mikle771 New Member Пользователи

    Регистрация:
    14 фев 2019
    Сообщения:
    25
    Город:
    Москва
    kagorec спасибо. В проекте который дали вы все норм. Но если я делаю визуально все как у вас, то результат как и был раньше. Поэтому вопрос - что осталось за кадром?
    Скидываю опять проект.
     

    Вложения:

  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Еще раз читайте Ссылки недоступны для гостей
    Там написано про фильтры очереди ссылок и фильтры выдачи ссылок. Даже схема нарисована!
     
  9. mikle771

    mikle771 New Member Пользователи

    Регистрация:
    14 фев 2019
    Сообщения:
    25
    Город:
    Москва
    Ответ в стиле Нострадамуса мне очень поможет.
    И вдобавок в проекте который мне человек скинул глубина ссылок по нулям, а если судить по видео то 3-3 нужно ставить.



    Ставлю 3-3 результат еще хуже! Вообще ерунду какую то парсит.
     
  10. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.429
    Адрес:
    Latvia
    Проект предоставлен для ознакомления и сравнения что можно было настроить в сканере, хорошо, надеюсь заметно теперь, вот на скрине отметил что было изменено.

    [​IMG]
     
  11. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Даже сюда скопирую материалы системы помощи, что поделать.

    sk1.png

    Сканер берет первую ссылку из окна «список очереди» И УДАЛЯЕТ ЕЕ ИЗ СПИСКА, загружает по ней web-документ и ищет в нем все url-адреса (ссылки). Ссылки, которые «пройдут» через фильтры очереди попадают в список очереди. Ссылки, которые «пройдут» через Ссылки недоступны для гостей, попадают в список найденных ссылок.



    Примечание: имеющиеся фильтры очереди работают по такому же принципу, как и Ссылки недоступны для гостей!

    Во время работы сканера, cписок очереди постоянно пополняется новыми найденными ссылками, содержащими в себе урл сайта (в данном случае sbfactory.ru, ссылки на другие сайты не попадут в список очереди). В список очереди могут добавляться ссылки с доменными именами третьего уровня (например, http://forum.sbfactory.ru).

    В список очереди и в список ссылок не могут попасть дубли url-адресов!

    Сканер сайтов будет продолжать работу, до тех пор, пока не «закончатся» все ссылки в списке очереди.
     
    kagorec нравится это.
  12. mikle771

    mikle771 New Member Пользователи

    Регистрация:
    14 фев 2019
    Сообщения:
    25
    Город:
    Москва
    kagorec ну все же так и делаю....
     
  13. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.429
    Адрес:
    Latvia
    Про фильтры ссылок забыли.
    Уже настолько подробно описано и показано что не имеет смысла дальше копировать цитаты из справки.
    ТЕМА ЗАКРЫТА.
     
    mikle771 нравится это.
  14. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Постарайтесь быть повнимательнее.
     
  15. mikle771

    mikle771 New Member Пользователи

    Регистрация:
    14 фев 2019
    Сообщения:
    25
    Город:
    Москва
    стараюсь, просто не ожидал, что нужно дублировать в фильтры то, что уже указывал в других настройках.
    Ну главное разобрался, спасибо.
     
  16. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    В сканере два списка ссылок (1 - по которым он "ходит", 2 - выдача). Следовательно, для каждого списка нужны свои уникальные фильтры (так как ссылки, например, на страницы рубрик естественным образом отличны от ссылок на страницы товаров).
     
  17. mikle771

    mikle771 New Member Пользователи

    Регистрация:
    14 фев 2019
    Сообщения:
    25
    Город:
    Москва
    Напишу здесь, т.к. там закрыли для меня тему.
    Здесь я спрашивал про одно, а там немного про другое.
    Если ставить в фильтры site.ru/literatura/ то парсит отлично. Если просто /literatura/ то парсит не все. А поскольку бывают сайты где признак встречается в разных местах урла, то приходится ставить не урл целиком а именно признак урла.
    Ставить /literatura/ только в фильтры ссылок я тоже пробовал .

    P.S. обещаю больше не наезжать, сорян если задел.
     
    Последнее редактирование: 17 мар 2019

Поделиться этой страницей