Удаление дублей в повторяющихся границах.

Тема в разделе "Решение проблем с использованием программы", создана пользователем babblosy, 7 авг 2014.

  1. babblosy

    babblosy New Member Пользователи

    Регистрация:
    8 янв 2013
    Сообщения:
    18
    Всем доброго времени суток.
    Столкнулся с проблемой.
    При сборе данных использую повторяющееся границу.
    При парсинге нескольких документов, между документами могут быть дубли каких то данных, например ссылок, можно ли сделать так чтобы данные, которые были ранее записаны в CSV файл больше не добавлялись.
     
  2. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.018
    Город:
    Riga
    отсеять дубли парсер умееет только на основе уникальных ссылок, подключите текстовой файл

    [​IMG]
     
  3. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    13.152
    Город:
    Барнаул
    Удалять дубли строк можно после парсинга в редакторе CSV файлов (кнопка на панели инструментов). Удалять можно как дубли строк CSV, так и удалять дубли по определенным столбцам ("дубли каких то данных")...
     
  4. babblosy

    babblosy New Member Пользователи

    Регистрация:
    8 янв 2013
    Сообщения:
    18
    Спасибо за помощь:)
     
  5. recrut

    recrut New Member Пользователи

    Регистрация:
    16 мар 2017
    Сообщения:
    15
    Немного другая ситуация, но тоже в рамках повторяющихся границ. В рамках этих границ есть несколько магазинов продающих один и тот же товар. Парсинг собирает файл закидывая в csv таблицу Наименование товара, название магазинов и соответственно цены предложенные ими. Однако, в результате возможной ошибки на сайте, один из магазинов может отображаться дважды. В результате в ячейку с ценой данные по магазину записывается дважды. На странице выглядит так: магазин1 9000, магазин2 10000, магазин2 10000, магазин3 11000. В файле получаем: магазин1 9000, магазин2 10000 10000, магазин 3 11000. Примерная стурктура таблицы: первый столбец наименование товара, остальные столбцы в заголовках содержат названия магазинов, а на пересечении в ячейках цены. На сколько я понимаю, один из макросов это решает, но какой именно лучше подходит и что им подсовывать в аргументы, не понимаю.
     
  6. kadishev1997

    kadishev1997 Well-Known Member Пользователи

    Регистрация:
    27 мар 2019
    Сообщения:
    190
    Или проверяйте настройки повт. границ парсинга, т.к. такие дубли могут возникать из-за их неправильной настройки (с вероятностью 98% причина в этом), либо попробуйте использовать макрос [DELDUP]
     
    Root нравится это.
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    13.152
    Город:
    Барнаул
    Здравствуйте, Recrut.

    Подумаю над реализацией функции удаления дублей циклов повторяющихся границ парсинга.
     
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    13.152
    Город:
    Барнаул
    Замените файл Content Downloader.exe (в папке с программой) этим файлом:
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 12 постов.**
    2020-11-19_10-21-42.png
     
    kagorec нравится это.
  9. recrut

    recrut New Member Пользователи

    Регистрация:
    16 мар 2017
    Сообщения:
    15
    Спасибо за поддержку. Было потрачено пару недель на поиск решения. Заменил файл, подправил проект. Вытащил данные, дублей нет, обрадовался. Проверил сайт, и на сайте дубли исчезли, хотя еще с утра, судя по логам они были. Поэтому еще раз большое спасибо за поддержку. Появится подобная ситуация, отпишу о работе CD.
     
    kagorec нравится это.

Поделиться этой страницей