Зависание Content Downloader

Тема в разделе "Решение проблем с использованием программы", создана пользователем Mikhail-SM, 2 апр 2012.

  1. Mikhail-SM

    Mikhail-SM New Member Пользователи

    Регистрация:
    2 апр 2012
    Сообщения:
    2
    Здравствуйте, уважаемая администрация!
    У меня есть задача спарсить очень большой сайт, с объемом ссылок более 300 тысяч.
    Столкнулся с тем, что CD не умеет при большом объеме информации правильно ее распределять в память - т.е. при количестве ссылок около 300 тысяч программа весит в оперативной памяти около 700 мб и при этом не подает признаков жизни + не может делать бэкап или какие-либо действия...
    Буду вам очень благодарен если вы решите вопрос с выделением памяти и корректной записи промежуточных результатов работы программы на диск.

    PS CD поставлен на Windows Server 2008 SP1 с двумя 4х ядерными Xeon + 8GB RAM
     
  2. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Ваше сообщение переслали автору программы.

    Но, думаю, что такая проблема может возникнуть не только из-за программы Content Downloader, но ещё и по другим принчинам, как то,-

    - торможение сервера сайта-донора
    - слишком много потоков, которые не успевают обрабатываться
    - плохие (медленные) прокси (если используете)
    и так далее

    Пока автор не ответил, попробуйте для начала самому поискать причину. Для этого, разграничьте задачи,-

    - посмотрите, есть ли подвисание программы до начала парсинга
    - при настройке проекта
    - было ли подвисание, при парсинге ссылок
    в общем, проверьте нет ли подвисания на уровне начала подготовки парсинга.

    Кроме всего, попробуйте задать для начала меньше ссылок, скажем 1000 или ещё меньше, посмотрите будет ли подвисание. Если "да", то причина не в программе. Если при уменьшении ссылок программа не виснет, тогда, действительно, дело может быть в количестве ссылок. И тут тоже не всегда виновата программа.

    Например, Windows, при количестве файлов более 10 тысяч в одной папке начинает подвисать очень даже сильно. А если количество ссылок 30 000 и более, то читает их очень и очень долго. Если вы не распределяете спарсенные ссылки по количеству, а парсите все в одну папку, не исключено, что ваша ОС зависнет напрочь.

    Эти моменты надо решать на уровне настроек,- что, куда, сколько парсить. Не знаю, в каком формате вы сохраняете данные, в один файл или в много? Если в один файл (CSV, html, txt, php), то программа позволяет выбрать количество докуметов в один файл. Если в отдельные файлы, то стоит подумать о том, чтобы разбить проект на более мелкие проекты, с соответствующим количеством файлов, сохранить эти проекты по отдельности, потом задать загрузку данных проектов последовательно через "Планировщик заданий". Подвисаний точно не будет.

    Другие варианты ответа на ваш вопрос предложит нам автор программы.
     
    Последнее редактирование: 2 апр 2012
  3. Mikhail-SM

    Mikhail-SM New Member Пользователи

    Регистрация:
    2 апр 2012
    Сообщения:
    2
    Доброе утро!
    Спасибо, что не оставили пост без внимания. Перед тем как писать на форум я проделал все описанные действия )
    Сервер в выделенном канале на 100МБит (прямой линк в точку обмена трафиком), прокси нашей же страны, платные. Все протестированы и работают. Скорость на каждом IP на мир не менее 256к. Сайт - донер висит в облаке на нескольких серверах и отдает всегда стабильно.
    На маленьких проектах (до 100 тысяч ссылок) программа работает нормально, давно пользуюсь.
    Проблема именно в обработке больших объемов данных с подгружением в оперативную память. Выглядит также, если вы блокнотом откроете текстовый фаил весом 70 мб )))
     
  4. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Тогда вам придётся делать проекты, как и было предложено выше,- до 100 тысяч, и загружать их партиями. Есть ещё моменты по настройке Windows, на случай, если у вас есть возможность настроить свой сервер. Описание Ссылки недоступны для гостей.
     
Similar Threads
  1. artlink74
    Ответов:
    3
    Просмотров:
    3.036
  2. serKrusH
    Ответов:
    1
    Просмотров:
    1.398
  3. pechal
    Ответов:
    2
    Просмотров:
    1.670
  4. JamesHound
    Ответов:
    1
    Просмотров:
    1.314
  5. Denius
    Ответов:
    5
    Просмотров:
    1.128
Загрузка...

Поделиться этой страницей