DUPIGNORE файл txt с ключами, почему хранит всего 11к строк?

Тема в разделе "Решение проблем с использованием программы", создана пользователем AlexandrSorokin, 1 дек 2018.

  1. AlexandrSorokin

    AlexandrSorokin Active Member Пользователи

    Регистрация:
    27 ноя 2018
    Сообщения:
    71
    Город:
    Пермь
    Привет!
    Решил для теста собрать огромное количество данных. Несколько миллионов строк.
    Чтобы не попадалось одинаковых, использую макрос DUPIGNORE с подключенным файлом ключей.
    Парсер каждый раз дозаписывает в него все новые уникальные ключи.


    Для теста в txt файл с ключами накопировал 2 миллиона строк, чтобы поверить какая будет нагрузка на пк и быстродействие при проверке дублей и появятся ли ошибки.

    Однако, парсер удалил ключи, оставив только 11 тысяч, и после них начал записывать уникальные новые.
     
    Последнее редактирование: 1 дек 2018
  2. AlexandrSorokin

    AlexandrSorokin Active Member Пользователи

    Регистрация:
    27 ноя 2018
    Сообщения:
    71
    Город:
    Пермь
    Ответ на вопрос почему удаляются ключи - файл ключей также проверяется на дубли и одинаковые значения удаляются. Затем оставшиеся данные сортируются. Можете встретить такую сортировку 1, 10, 100, 1000, 2, 20, 200, 3...
    Если сделать миллион уникальных ключей, то они не удаляются, НО парсер немного подвисает и не проверяет дубли.
    Как исправить эту ошибку?
    И как можно уникализировать миллионные значения
     
    Последнее редактирование: 1 дек 2018
  3. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.433
    Адрес:
    Latvia
    Миллион это достаточно боьшой обьъем. Как вариант работать с базой mysql
     
    AlexandrSorokin нравится это.
  4. AlexandrSorokin

    AlexandrSorokin Active Member Пользователи

    Регистрация:
    27 ноя 2018
    Сообщения:
    71
    Город:
    Пермь
    Спасибо за ответ!
    Честно, говоря, это не такой большой объем записей, это всего пару тройку крупных магазинов =)
    Мне просто интересны способы обработки 50-100 млн записей. Причем это реальные задачи, не простая выдумка.

    Да, действительно.
    Есть вариант работы с mySQL и там делать настройку удаления дублей.

    Также интересно мнение Сергея, возможно ли встроенными функциями парсера уникализировать большие объемы данных?
     
    Последнее редактирование: 1 дек 2018
  5. AlexandrSorokin

    AlexandrSorokin Active Member Пользователи

    Регистрация:
    27 ноя 2018
    Сообщения:
    71
    Город:
    Пермь
    Похожая тема с 215 года
    http://forum.sbfactory.ru/threads/dupignore-skladyvaet-key-bez-perenosa-strok.2914/

    Похоже пока не получается сделать уникализацию больших объемов данных

    ПРИ БОЛЬШИХ ОБЪЕМАХ ПРОВЕРОЧНЫХ КЛЮЧЕЙ, НУЖНО УМЕНШИТЬ КОЛИЧЕСТВО ПОТОКОВ И ПРОБОВАТЬ ДЕЛАТЬ ПАУЗЫ МЕЖДУ ПАРСИНГОМ.
    ЧТОБЫ КОМПЬЮТЕР УСПЕВАЛ ПРОВЕРЯТЬ КЛЮЧИ, ИНАЧЕ БУДУТ ПРОПУСКИ
     
    Последнее редактирование: 2 дек 2018
  6. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    для больших объемов требуется использование совершенно других технологий именуемых bigdata там в основном на PostgreSQL пишется.
    не думаю что такие обработки вообще будут введены
     
    AlexandrSorokin нравится это.
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Для работы с такими объемами нужно, как ни крути, использовать базу данных. "Общайтесь" с БД с помощью макроса шаблона вывода PHP_SCRIPT

    Ссылки недоступны для гостей
     
    AlexandrSorokin нравится это.

Поделиться этой страницей