Парсинг контента доходит до 0 документов в сек. но есть активные потоки

Тема в разделе "Решение проблем с использованием программы", создана пользователем babblosy, 7 мар 2013.

  1. babblosy

    babblosy New Member Пользователи

    Регистрация:
    8 янв 2013
    Сообщения:
    18
    не возможно работать, приходится все время мониторить Content Downloader

    Запускаю задание (от 10000 и более ссылок) парсер соберет нужный мне контент с 3000 - 9000 ссылок и потом показывает что скорость 0 документов в сек и какое то количество активных потоков, хотя должен еще собирать и собирать, и программа как бы подвисает.

    Ставлю от 10 - 50 потоков (пробовал разные варианты)
    Сохраняю все в один csv файл (по 5000 в один файл)
    Типа потоков выбрал - TIMECRITICAL (пробовал разные типы потоков)
    Источник с которого я собираю контент меня не банит.
    Сбор без прокси
    И зависание происходит так, я например выбрал 10 потоков, и внизу видно что рабочих потоков 10, и сбор идет нормально, через какое то время потоков становится 9 активных, и потом тоже через какое то время сбор достигает 0 документов, хотя потоков активных 9

    В чем может быть проблема, посоветуйте что сделать.
    Очень буду благодарен.
     
  2. babblosy

    babblosy New Member Пользователи

    Регистрация:
    8 янв 2013
    Сообщения:
    18
    Вот пример
    [​IMG]
    выставлено 15 потоков и сохранение по 2000 строк в csv файл


    а то так реально работать не возможно, мне нужно обработать порядка 250к урлов. и на каждые 2000 ссылок запускать программу не вариант
     
  3. alamina.moon

    alamina.moon Модератор Команда форума Модератор

    Регистрация:
    14 янв 2013
    Сообщения:
    214
    В 50 потоков парсил и паршу если сайт держит, но с проксями.
    Вы не первый кто так говорит что зависает, но у меня лично ни разу еще не зависла при парсинге кода. Кстати человек который говорил что зависает тоже прокси не использовал. Может быть в этом суть? Еще заметил, что может подвиснуть если пытаться загрузить несуществующие картинки, обычно это происходит если проект не правильно составлен.

    Вот например неужели у Вас с 500 страниц 10к картинок???

    PS я парсил 500к страниц
     
    Последнее редактирование: 7 мар 2013
  4. babblosy

    babblosy New Member Пользователи

    Регистрация:
    8 янв 2013
    Сообщения:
    18
    Да у меня порядка 20 - 30 картинок на странице, которые нужно собирать.
     
  5. alamina.moon

    alamina.moon Модератор Команда форума Модератор

    Регистрация:
    14 янв 2013
    Сообщения:
    214
    С проксями попробуйте, только не с фришными )
     
  6. babblosy

    babblosy New Member Пользователи

    Регистрация:
    8 янв 2013
    Сообщения:
    18
    посоветуете где взять прокси не фришных?
     
  7. alamina.moon

    alamina.moon Модератор Команда форума Модератор

    Регистрация:
    14 янв 2013
    Сообщения:
    214
    Ссылки недоступны для гостей попробуйте, не сочтите за рекламу ) просто сам там брал недорого, вполне удовлетворяют моим требования
     
  8. fox

    fox New Member Пользователи

    Регистрация:
    16 ноя 2015
    Сообщения:
    2
    А что означает TIMECRITICAL?
     
    qweeeraz нравится это.

Поделиться этой страницей