100 миллионов ссылок

Тема в разделе "Разное", создана пользователем KPOCAB4EG, 19 янв 2017.

  1. KPOCAB4EG

    KPOCAB4EG New Member Пользователи

    Регистрация:
    6 авг 2014
    Сообщения:
    19
    Добрый день, необходимо спарсить 100 миллионов ссылок:)

    При добавлении более 500 тысяч на моем ноутбуке (Intel Core i7-4720HQ/12 Gb/SSD 550/520) начинает падать количество документов/сек. С потоками/мс игрался, особо ничего не меняет, кроме максимальной скорости парсинга ближе к концу (при 200к уже выходит на максимум).

    Взял под это дело дедик (Intel Core i7-6700/64 Gb/SSD 1500/800 RAID0), но не думаю что там сильно всё измениться (не в 20 раз), да и CD не поддерживает более 2кк строк, насколько я помню.

    Как можно "поставить и забыть"? Раскидать 100кк по проектам (0,5-1кк) и добавить автозапуск следующего по окончании предыдущего возможно?)

    p.s. интернет хороший, но дело не в нем, т.к. скорость парсинга падает исключительно от количества ссылок
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    2017-01-19_17-39-36.png
     
    KPOCAB4EG нравится это.
  3. KPOCAB4EG

    KPOCAB4EG New Member Пользователи

    Регистрация:
    6 авг 2014
    Сообщения:
    19
    Спасибо! Можно еще спросить: если у меня 60 повторяющихся ссылок (по порядку) и 100кк значений которые подставляются в конец всех этих ссылок (они идут строго по порядку и разные), можно ли не прописывать сами ссылки, а сделать чтобы они подставлялись (ссылка1+значение1...ссылка60+значение60...ссылка1+значение65536 и т.д.) пока не кончатся значения? При условии, что значения также являются частью [PARAM]
     
  4. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    вы 100кк будете месяцами обрабатывать, если это сео
     
    Последнее редактирование модератором: 20 янв 2017
  5. KPOCAB4EG

    KPOCAB4EG New Member Пользователи

    Регистрация:
    6 авг 2014
    Сообщения:
    19
    Ровно 4 недели (40 документов в секунду при 100к ссылках; 50 потоков при 0,5 мс) 24/7

    А вот редактировать эти ссылки с подстановкой кучи переменных с учетом ограничений Excel'я на 1кк строк действительно долго (и нудно)
     
    Последнее редактирование модератором: 20 янв 2017
  6. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    ну для подстановки нужно написать макрос в екселе, да и разбивка не такое сложное дело, если правильно подходить)
     
  7. KPOCAB4EG

    KPOCAB4EG New Member Пользователи

    Регистрация:
    6 авг 2014
    Сообщения:
    19
    это 200 столбцов по миллиону))
     
  8. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    такие объемы разом никто не использует, это больше в txt делается)
     
    KPOCAB4EG нравится это.
  9. KPOCAB4EG

    KPOCAB4EG New Member Пользователи

    Регистрация:
    6 авг 2014
    Сообщения:
    19
    Не подскажите как к 100кк «ххх» добавить несколько чередующихся ссылок?
     
  10. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    git bash изучайте
     
  11. Alexus168

    Alexus168 New Member Пользователи

    Регистрация:
    7 май 2019
    Сообщения:
    2
    Какая конфигурация?
     

Поделиться этой страницей