Железо для парсинга

Тема в разделе "Поиск решений", создана пользователем evgenij, 30 сен 2019.

  1. evgenij

    evgenij Member Пользователи

    Регистрация:
    10 авг 2019
    Сообщения:
    49
    Нужно построить парсинг-станцию для парсинга нескольких больших доноров в режиме 24×7.

    Подскажите, пожалуйста, кто строил: какое железо брали и с какими тонкостями столкнулись.
     
  2. kenny872012

    kenny872012 Well-Known Member Пользователи

    Регистрация:
    18 фев 2018
    Сообщения:
    152
    Вы хотите запустить парсинг на отдельном компьютере или установить Content Downloader на vds? Если vds то никаких особых тонкостей нет, покупаете тариф на Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! можно не самый дорогой "SD-Trinity" например (у меня SD-Quad), устанавливаете CD и запускаете парсинг.
     
    Последнее редактирование: 30 сен 2019
    Root нравится это.
  3. evgenij

    evgenij Member Пользователи

    Регистрация:
    10 авг 2019
    Сообщения:
    49
    Отдельный компьютер хочется. Хотя если кто-то обсчитывал разницу хостинга и локального компьютера в деньгах, ядрах и РАМе, то было бы исключительно интересно ознакомиться.
     
  4. kenny872012

    kenny872012 Well-Known Member Пользователи

    Регистрация:
    18 фев 2018
    Сообщения:
    152
    ЖК монитор за час должен потребить 60 Вт, блок питания – до 500 Вт, модем или роутер ещё около 20 Вт. Имеем: 60+500+20=580 Вт в час. Умножаем полученное значение часовой работы на время работы. Предположим, что компьютер включен и работает в режиме нон-стоп, значит: 580х24=13 920 Вт или 13,2 кВт*ч, или около 400 в месяц. Умножив ежедневные электрорасходы на рабочие дни в месяц и на стоимость 1 кВт*ч по гос тарифам, получим: 13,2х31х4 рубля за кВт*час = 1636,8 рублей
    Получается vds дешевле, чем покупать компьютер под одну программу и платить за электричество, которое он потребляет.
     
  5. evgenij

    evgenij Member Пользователи

    Регистрация:
    10 авг 2019
    Сообщения:
    49
    @kenny872012 я скорее не про электричество, а про количество ядер процессора, threads и RAM. Задача стоит такая: запускать несколько проектов CD одновременно. На 8-ядерной станции (8x3,9 ГГц) и 16ГБ рама CD загрузил все процессоры до 100% при 9 потоках. О запуске ещё одного проекта не может быть при такой нагрузке и речи.

    @Root Или CD просто не предрасположен для нескольких проектов одновременно?
     
  6. kenny872012

    kenny872012 Well-Known Member Пользователи

    Регистрация:
    18 фев 2018
    Сообщения:
    152
    Сколько проектов в одно время запускаете? Они у вас не через библиотеку dom случайно работают? У меня на vds 3 Ядра 6000 МГц CPU 6900 Мб ОЗУ запускается периодически по 6 проектов cd в одно время не менее 20 потоков каждый, помимо этого работает 5 ботов 24/7 один из них работает в 100 потоков.
     
  7. evgenij

    evgenij Member Пользователи

    Регистрация:
    10 авг 2019
    Сообщения:
    49
    @kenny872012 один проект, но да, он с WBappCEF.
     
  8. kenny872012

    kenny872012 Well-Known Member Пользователи

    Регистрация:
    18 фев 2018
    Сообщения:
    152
    Тогда через WBapp ставьте не более 2-х потоков, а если используете WBappCEF тогда лучше вообще 1, т.к. по моим наблюдениям он пока работает не так стабильно как ie, даже на мощных пк не стоит на нем накручивать потоки. Или перепишите проект на post/get
     
  9. evgenij

    evgenij Member Пользователи

    Регистрация:
    10 авг 2019
    Сообщения:
    49
    у меня около 700.000 урл в проекте - я так до старости не управлюсь:)
     
  10. kenny872012

    kenny872012 Well-Known Member Пользователи

    Регистрация:
    18 фев 2018
    Сообщения:
    152
    В любом случае новый пк вам не поможет если хотите через CEF парсить 700000 урл в 9 потоков
     

Поделиться этой страницей