Как организовать автопарсинг каталога?

Тема в разделе "Решение различных задач по парсингу", создана пользователем AlexandrSorokin, 11 дек 2018.

  1. AlexandrSorokin

    AlexandrSorokin Active Member Пользователи

    Регистрация:
    27 ноя 2018
    Сообщения:
    71
    Город:
    Пермь
    Привет!
    Насколько понял, при парсинге каталога в магазине, нужно несколько раз запускать парсер.
    1й раз - сбор ссылок на категории товаров
    2й раз - сбор ссылок на сами товары
    3й раз - сбор инфы с товаров.

    А можно все это за 1 раз сделать?
    Только с очередью парсинга, где три разных парсинга идут друг за другом?

    Нужно для того чтобы оформить в 1 Excel и не надо будет в каждую однотипную категорию заходить и парсить и потом склеивать все файлы в один прайс
     
    Последнее редактирование: 11 дек 2018
  2. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    867
    Можно, через сканер сайтов, с последующей передачей собранных ссылок во вкладку "Контент"

    В сканере сайтов настраиваете фильтр ссылок так, чтобы в выдачу попадали ссылки на карточки товаров, например:
    site.ru/catalog/название_товара
    Так же необходимо поставить галочку "запускать парсинг контента после окончания работы сканера".

    Во вкладке "Контент" настраиваете границы парсинга для сбора хлебных крошек из карточки товара и обрабатываете макросом [BREADCRUMBS] - получите название категории товара. Если категории явно не указаны, то можно через PARAM в сканере сайта подставить значение категории к url карточки товара, а в шаблоне вывода вернуть через сам макрос [PARAM]

    Макросом <CD_DOCURL!> - выведите url карточки товара
    Далее настраиваете сбор данных из карточки

    В итоге все делается в рамках одного проекта.

    Если, все-таки нужно
    То настраиваете три разных проекта, и поочередно запускаете через планировщик

    Если что-то не понятно - Ссылки недоступны для гостей, а если совсем не понятно - Ссылки недоступны для гостей.
     
    Kreol и AlexandrSorokin нравится это.
  3. AlexandrSorokin

    AlexandrSorokin Active Member Пользователи

    Регистрация:
    27 ноя 2018
    Сообщения:
    71
    Город:
    Пермь
    inotoxic спасибо за ответ! мне просто логически надо было понять. При сканере ссылок происходит очень долгий перебор Лучше границами парсинга собирать...
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Если грамотно настроить фильтры очереди сканера сайтов, то каталог спарсится очень быстро.
     
    Kreol нравится это.

Поделиться этой страницей