DUPIGNORE файл txt с ключами, почему хранит всего 11к строк?

AlexandrSorokin · 1 дек 2018

Привет!
Решил для теста собрать огромное количество данных. Несколько миллионов строк.
Чтобы не попадалось одинаковых, использую макрос DUPIGNORE с подключенным файлом ключей.
Парсер каждый раз дозаписывает в него все новые уникальные ключи.

Для теста в txt файл с ключами накопировал 2 миллиона строк, чтобы поверить какая будет нагрузка на пк и быстродействие при проверке дублей и появятся ли ошибки.

Однако, парсер удалил ключи, оставив только 11 тысяч, и после них начал записывать уникальные новые.

AlexandrSorokin · 1 дек 2018

Ответ на вопрос почему удаляются ключи - файл ключей также проверяется на дубли и одинаковые значения удаляются. Затем оставшиеся данные сортируются. Можете встретить такую сортировку 1, 10, 100, 1000, 2, 20, 200, 3...
Если сделать миллион уникальных ключей, то они не удаляются, НО парсер немного подвисает и не проверяет дубли.
Как исправить эту ошибку?
И как можно уникализировать миллионные значения

kagorec · 1 дек 2018

Миллион это достаточно боьшой обьъем. Как вариант работать с базой mysql

AlexandrSorokin · 1 дек 2018

kagorec сказал(а): ↑

Миллион это достаточно большой объем. Как вариант работать с базой mysql
Нажмите, чтобы раскрыть...

Спасибо за ответ!
Честно, говоря, это не такой большой объем записей, это всего пару тройку крупных магазинов =)
Мне просто интересны способы обработки 50-100 млн записей. Причем это реальные задачи, не простая выдумка.

Да, действительно.
Есть вариант работы с mySQL и там делать настройку удаления дублей.

Также интересно мнение Сергея, возможно ли встроенными функциями парсера уникализировать большие объемы данных?

AlexandrSorokin · 2 дек 2018

Похожая тема с 215 года
http://forum.sbfactory.ru/threads/dupignore-skladyvaet-key-bez-perenosa-strok.2914/

Похоже пока не получается сделать уникализацию больших объемов данных

ПРИ БОЛЬШИХ ОБЪЕМАХ ПРОВЕРОЧНЫХ КЛЮЧЕЙ, НУЖНО УМЕНШИТЬ КОЛИЧЕСТВО ПОТОКОВ И ПРОБОВАТЬ ДЕЛАТЬ ПАУЗЫ МЕЖДУ ПАРСИНГОМ.
ЧТОБЫ КОМПЬЮТЕР УСПЕВАЛ ПРОВЕРЯТЬ КЛЮЧИ, ИНАЧЕ БУДУТ ПРОПУСКИ

Kreol · 1 дек 2018

для больших объемов требуется использование совершенно других технологий именуемых bigdata там в основном на PostgreSQL пишется.
не думаю что такие обработки вообще будут введены

Root · 2 дек 2018

Для работы с такими объемами нужно, как ни крути, использовать базу данных. "Общайтесь" с БД с помощью макроса шаблона вывода PHP_SCRIPT

Ссылки недоступны для гостей

Войти или зарегистрироваться

DUPIGNORE файл txt с ключами, почему хранит всего 11к строк?

AlexandrSorokin Active Member Пользователи

AlexandrSorokin Active Member Пользователи

kagorec Администратор Команда форума Администратор

AlexandrSorokin Active Member Пользователи

AlexandrSorokin Active Member Пользователи

Kreol Модератор Команда форума Модератор

Root Администратор Администратор

В итоговый файл попадает только 9999 строк

DUPIGNORE складывает KEY без переноса строк

Файл сам обрезается до 3049 строк!

Почему после парсинга характеристики которые в просмотре были видны не сохраняются в CSV файл?

Почему файл txt для макроса DUPIGNORE перестал ставить перенос строк?

Поделиться этой страницей

Войти или зарегистрироваться

DUPIGNORE файл txt с ключами, почему хранит всего 11к строк?

AlexandrSorokin Active Member Пользователи

AlexandrSorokin Active Member Пользователи

kagorec Администратор Команда форума Администратор

AlexandrSorokin Active Member Пользователи

AlexandrSorokin Active Member Пользователи

Kreol Модератор Команда форума Модератор

Root Администратор Администратор

В итоговый файл попадает только 9999 строк

DUPIGNORE складывает KEY без переноса строк

Файл сам обрезается до 3049 строк!

Почему после парсинга характеристики которые в просмотре были видны не сохраняются в CSV файл?

Почему файл txt для макроса DUPIGNORE перестал ставить перенос строк?

Поделиться этой страницей

Быстрый поиск