Специфическая обработка фильтров или как я ее вижу

Тема в разделе "Решение различных задач по парсингу", создана пользователем Kreol, 3 дек 2018.

  1. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Не размещал в разделе доработок ибо хотелось подискутировать и получить фидбек
    Приветствую
    Коллеги, прошу помощи в реализации или доработке
    В общем такакя тема.
    Есть сайт, коих тысячи, например:
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 50 постов.**
    В нем есть Каталог
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 50 постов.**
    , в котором есть раздел Коллекции (слева)
    Если мы возьмем товар из раздела коллекций "Новогодняя коллекция носков и колготок"
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 50 постов.**
    , например
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 50 постов.**
    то мы попадем на его обычное место жительства раздел "Чулочно-носочные изделия/Детские носки/Носки Снежок детские"
    в карточке товара данной информации к принадлежащей категории нет
    вопрос, можно ли как-то научить парсер сопоставлять данную информацию?

    как это решается сейчас:
    1) парсим весь каталог,
    2) всем линкам присваиваем соответсвующую категорию
    3) в екселе разделяем по [PARAM] на столбцы (url[CSVCS][PARAM]
    например
    url1|коллекция1
    url1|коллекция2
    url1|категорияА
    4) сортируем по url (удаляем дубли строк (колонка А+В)
    5) макросом сгоняем результат и получаем
    url1|коллекция1|коллекция2|категорияА
    6) обратно возвращаем [PARAM]
    url1[PARAM]:<cat1>коллекция1<cat2>коллекция2<cat3>категорияА<->
    7) засовываем полученный результат в парсер и уже распоряжаемся полученными данными.
    Таким способом я пользуюсь уже года 3, так как когда-то к нему пришел и он меня особо не смущал ибо я мог проконтролировать результат и в случае надобности все переделать имея начальные данные.
    Но теперь все таки хотелось бы автоматизировать данную работу, т.к. клиентам функционал нужен, а делать лишние телодвижения они не хотят. (я думаю вы понимаете о чем я)

    Если все таки у нас есть решение исходя из новых доработок буду очень признателен.

    Если же нет, то возможно как вариант рассмотреть вот такой подход:
    1 проектом мы формируем ссылки вида
    url1|коллекция1
    url1|коллекция2
    url1|категорияА
    и сохраняем их в link.txt
    во втором проекте (получив например все ссылки через сканер либо вкладку ссылки) мы на этом этапе или на этапе парсинга во вкладке Контент подключаем данный файл и сравнивая урл заполняем ячейку нашимси данными
    т.е. в итоге мы получаем тот же результат "коллекция1[РАЗДЕЛИТЕЛЬ]коллекция2[РАЗДЕЛИТЕЛЬ]категорияА

    Это лично мое виденье, может все и не так должно быть. Но именно данный формат реализации был бы очень востребован у меня.
    Готов даже оплатить доработку ибо таких проектов много, а данные действия забирают слишком много времени.
    Готов предоставить любую посильную помощь.
    В общем тапками не бросать.
    Прошу помочь с решением данного вопроса
    Всех кто работает с подобным, отпишите как вы делаете это.
    Спасибо заранее
     
    Последнее редактирование: 3 дек 2018
  2. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Так как мы начали дискутировать с intoxic-ом понимаю что есть зерно непонимания.
    На входе сайт
    На выходе нужно получить все ссылки с сайта при этом в данном конкретном случае получить урлы товаров с принадлежностью к коллекциям. не получая ничего лишнего.
    Повторюсь, есть сайты, в которых есть 10-20-30 фильтрок, и именно фильтра нужно прописывать товару.
    Как по мне мой вариант обработки полностью решает этот вопрос. но он очень трудозатратный по времени.
    Куда было бы проще на вход подавать ссылки с фильтрами
    например:
    url1:[PARAM]:металл
    url1:[PARAM]:цвет
    url1:[PARAM]:вставка
    и на выходе получать
    url1[PARAM]:металл///цвет///вставка
     
  3. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    Как обычно, подготовить отдельный проект который сканирует категории и затем собирает ссылки выпарсивая из страниц присваивая в PARAM значения. Далее насколько возможно со стороны импорта, дополнить информацию если может то все хорошо, в ином случае создавать "костыли" как в первом посте.
     
  4. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    так я и хочу решение не костыльное.
     

Поделиться этой страницей