Глубина ссылок

Тема в разделе "Парсинг во вкладке "Ссылки"", создана пользователем ergoline, 5 сен 2013.

  1. ergoline

    ergoline New Member Пользователи

    Регистрация:
    15 сен 2011
    Сообщения:
    49
    Адрес:
    UA
    Город:
    Kiev
    В принципе стояла задача простенький сайт на модх - sportland.com.ua
    В чем я напрягся...
    то что у меня выходило товары парсить по категорийно только.
    по тому что на парсер сайта я не смог найти оптимальное решение
    при использовании парсера сайта вылазят ссылки с товаром которые имеют вид
    HTML:
    http://sportland.com.ua/catalogue/detskoe-igrovoe-oborudovanie/kacheli/catalogue/detskoe-igrovoe-oborudovanie/kacheli/kachel-odinarnaya/
    http://sportland.com.ua/catalogue/detskoe-igrovoe-oborudovanie/kacheli/kachel-odinarnaya/
    
    те откуда то брался еще один /catalogue/detskoe-igrovoe-oborudovanie/
    и это, хтмл страниц нет. только как каты - /kachel-odinarnaya/
    
    если по категориям идти то вроде потом заменой в фильтрах можно обрезать эти ссылки ( длинные которые)
    но почему товары не парсятся при родной длине? а только вот так при глубине 5-7
    те спарсить то я уже так сделал, но как можно было б иначе?
    в чем ляп?
    чтоб на будущее не попасться
     

    Вложения:

  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.
    В фильтрах ссылок попробуйте переключиться на "добавлять следующее" и прописать заместо Ссылки недоступны для гостей префикс к относительным ссылкам Ссылки недоступны для гостей
     
  3. ergoline

    ergoline New Member Пользователи

    Регистрация:
    15 сен 2011
    Сообщения:
    49
    Адрес:
    UA
    Город:
    Kiev
    если сделать так, то тогда просто не надо в замене ничего потом писать.
    возможно я не понял что может быть префиксом для всех категорий, кроме самого домена.
     
  4. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    Собирайте ссылки через вкладку "ссылки" это намного быстрее и чище для данного сайта. В каждой категории можно по одно ссылке раскрыть все товары от категории если в конце /?ditto_display=all
     
  5. ergoline

    ergoline New Member Пользователи

    Регистрация:
    15 сен 2011
    Сообщения:
    49
    Адрес:
    UA
    Город:
    Kiev
    ну этот путь у меня и вышел.
    меня просто мучал вопрос, чего я не смог играя с глубиной ссылок получить результат. (((
    помню когда спрашивал про бурж сайт на асп, и именно так удалось тогда решить вопрос
     
  6. advent

    advent New Member Пользователи

    Регистрация:
    14 фев 2014
    Сообщения:
    1
    Сканирование сайта.

    Здравствуйте. Вставил адрес сайта, включил сканер. Он теперь парсит ссылки целый день, напарсил уже больше миллиона ссылок и дальше продолжает. Такое может быть вообще? Сканирую сайт-сиджей. Может он сканирует все сайты, с ним связанные? Я начинающий.
     
    Последнее редактирование: 14 фев 2014
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.
    Просмотрите ссылки в списке очереди, проанализируйте их, сделайте вывод. Нужно настроить фильтры очереди так, чтобы сканер не ходил по лишним ссылкам.
    Вот мануал по сканеру - Ссылки недоступны для гостей
    Если будут вопросы - обращайтесь!
     
  8. maks

    maks New Member Пользователи

    Регистрация:
    7 янв 2017
    Сообщения:
    4
    Здравствуйте.
    ссылки вида
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    ставлю фильтр по глубине от 3 до 3 остается Ссылки недоступны для гостей
    ставлю фильтр по глубине от 4 до 4 остается
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей

    как убрать ссылки вида Ссылки недоступны для гостей
     
  9. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    maks, в запрет добавьте
    Код:
    re:com/catalog/[^\/]+/$
     
  10. maks

    maks New Member Пользователи

    Регистрация:
    7 янв 2017
    Сообщения:
    4
    Поставил в запрет
    re:com/catalog/4/$
    все равно выводит
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
     
  11. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Пожалуйста, приложите ваш проект.
     
    Последнее редактирование: 7 янв 2017
  12. maks

    maks New Member Пользователи

    Регистрация:
    7 янв 2017
    Сообщения:
    4

    Вложения:

    • test.cdp
      Размер файла:
      32 КБ
      Просмотров:
      2
  13. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
  14. maks

    maks New Member Пользователи

    Регистрация:
    7 янв 2017
    Сообщения:
    4
    Спасибо
     
    Root нравится это.
  15. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    в поле "не добавлять ссылки" надо указать было, а не везде))
     

Поделиться этой страницей