Удаление дублей ссылок из разных рубрик

Тема в разделе "Решение различных задач по парсингу", создана пользователем Kreol, 12 июл 2020.

  1. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Приветствую!
    В общем ситуация такая:
    Есть сайт на котором хлебные крошки можно увидеть только если идти по пути товара (заходим на категорию, потом дальше и т.д.
    Есть xml в котором есть ссылки на товары, но там нет привязки к категориям (ссылка ниже)
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 100 постов.**
    а вот так выглядит ссылка с привязкой
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 100 постов.**
    Проблема в том, что собрать ссылки с привязкой я могу, но вот такой вариант в итоге получается:
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 100 постов.**
    т.е. ссылка одна и таже, но она во многих категориях.
    Нам нужно чтоб ссылка осталась одна для любой из категории (обычно первой.
    Вопрос: Как решить эту задачу (таких инструментов для обработки ссылок у нас нету (либо я смотрб не туда)
    Единственное решение которое я могу предположить, это сделать через PARAM + удаление дублей без учета PARAM.
    Но это ручная работа. У нас нет инструментов, чтоб автоматически что-то делать с ссылками до момента их загрузки.
    Может кто что подскажетя7
     
  2. aresa

    aresa Well-Known Member Пользователи

    Регистрация:
    17 окт 2015
    Сообщения:
    180
    Добрый вечер!
    Я такую проблему обычно решаю через макрос [DUPIGNORE] во время Парсинга.
    Товар парсится в первой попавшейся ссылке, не важно в какой категории он находится. Остальные ссылки отбрасываются. Наверно это решение не подойдёт, Вы же хотите до загрузки ссылок.
     
  3. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.432
    Адрес:
    Latvia
    Теоретически;
    В сканере в поиск-замена перекинуть значение категории в [PARAM] чтобы отсеяло дубли на стадии сканирования стандартным способом.
    Код:
    re:\?ref=categor:([\d]+)|[PARAM]:?ref=categor:$1
    или
    Пробуй надстроить "Инструмент расширенного удаления дублей ссылок"
     
    Kreol нравится это.
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Ссылки недоступны для гостей
     
    Kreol и kagorec нравится это.
  5. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    А как эту функцию использовать автоматически при загрузке ссылок из файла? Я походу что-то не понял.
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    При какой именно функции загрузки ссылок из файла? Их несколько.
     
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Замените файл Content Downloader.exe (в папке с программой) этим файлом:
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1000 постов.**
     
    Kreol нравится это.

Поделиться этой страницей