Глубина ссылок

Тема в разделе "Парсинг ссылок (сканер сайтов и вкладка "ссылки")", создана пользователем ergoline, 5 сен 2013.

  1. ergoline

    ergoline New Member Пользователи

    Регистрация:
    15 сен 2011
    Сообщения:
    29
    В принципе стояла задача простенький сайт на модх - sportland.com.ua
    В чем я напрягся...
    то что у меня выходило товары парсить по категорийно только.
    по тому что на парсер сайта я не смог найти оптимальное решение
    при использовании парсера сайта вылазят ссылки с товаром которые имеют вид
    HTML:
    http://sportland.com.ua/catalogue/detskoe-igrovoe-oborudovanie/kacheli/catalogue/detskoe-igrovoe-oborudovanie/kacheli/kachel-odinarnaya/
    http://sportland.com.ua/catalogue/detskoe-igrovoe-oborudovanie/kacheli/kachel-odinarnaya/
    
    те откуда то брался еще один /catalogue/detskoe-igrovoe-oborudovanie/
    и это, хтмл страниц нет. только как каты - /kachel-odinarnaya/
    
    если по категориям идти то вроде потом заменой в фильтрах можно обрезать эти ссылки ( длинные которые)
    но почему товары не парсятся при родной длине? а только вот так при глубине 5-7
    те спарсить то я уже так сделал, но как можно было б иначе?
    в чем ляп?
    чтоб на будущее не попасться
     

    Вложения:

  2. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    6.505
    Адрес:
    sbfroot@gmail.com
    Здравствуйте.
    В фильтрах ссылок попробуйте переключиться на "добавлять следующее" и прописать заместо Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! префикс к относительным ссылкам Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
     
  3. ergoline

    ergoline New Member Пользователи

    Регистрация:
    15 сен 2011
    Сообщения:
    29
    если сделать так, то тогда просто не надо в замене ничего потом писать.
    возможно я не понял что может быть префиксом для всех категорий, кроме самого домена.
     
  4. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    2.473
    Собирайте ссылки через вкладку "ссылки" это намного быстрее и чище для данного сайта. В каждой категории можно по одно ссылке раскрыть все товары от категории если в конце /?ditto_display=all
     
  5. ergoline

    ergoline New Member Пользователи

    Регистрация:
    15 сен 2011
    Сообщения:
    29
    ну этот путь у меня и вышел.
    меня просто мучал вопрос, чего я не смог играя с глубиной ссылок получить результат. (((
    помню когда спрашивал про бурж сайт на асп, и именно так удалось тогда решить вопрос
     
  6. advent

    advent New Member Пользователи

    Регистрация:
    14 фев 2014
    Сообщения:
    1
    Сканирование сайта.

    Здравствуйте. Вставил адрес сайта, включил сканер. Он теперь парсит ссылки целый день, напарсил уже больше миллиона ссылок и дальше продолжает. Такое может быть вообще? Сканирую сайт-сиджей. Может он сканирует все сайты, с ним связанные? Я начинающий.
     
    Последнее редактирование: 14 фев 2014
  7. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    6.505
    Адрес:
    sbfroot@gmail.com
    Здравствуйте.
    Просмотрите ссылки в списке очереди, проанализируйте их, сделайте вывод. Нужно настроить фильтры очереди так, чтобы сканер не ходил по лишним ссылкам.
    Вот мануал по сканеру - Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    Если будут вопросы - обращайтесь!
     
  8. maks

    maks New Member Пользователи

    Регистрация:
    7 янв 2017
    Сообщения:
    4
    Здравствуйте.
    ссылки вида
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    ставлю фильтр по глубине от 3 до 3 остается Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    ставлю фильтр по глубине от 4 до 4 остается
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!

    как убрать ссылки вида Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
     
  9. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    2.473
    maks, в запрет добавьте
    Код:
    re:com/catalog/[^\/]+/$
     
  10. maks

    maks New Member Пользователи

    Регистрация:
    7 янв 2017
    Сообщения:
    4
    Поставил в запрет
    re:com/catalog/4/$
    все равно выводит
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
     
  11. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    6.505
    Адрес:
    sbfroot@gmail.com
    Здравствуйте.

    Пожалуйста, приложите ваш проект.
     
    Последнее редактирование: 7 янв 2017
  12. maks

    maks New Member Пользователи

    Регистрация:
    7 янв 2017
    Сообщения:
    4

    Вложения:

    • test.cdp
      Размер файла:
      32 КБ
      Просмотров:
      1
  13. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    6.505
    Адрес:
    sbfroot@gmail.com
  14. maks

    maks New Member Пользователи

    Регистрация:
    7 янв 2017
    Сообщения:
    4
    Спасибо
     
    Root нравится это.
  15. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    2.473
    в поле "не добавлять ссылки" надо указать было, а не везде))
     

Поделиться этой страницей