Пустые строки при парсинге

Тема в разделе "Решение проблем с использованием программы", создана пользователем inotoxic, 16 ноя 2017.

  1. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    867
    CD работает на VPS , ссылок для сбора ~ 200.000, все страницы однотипные, 10.000 записей на csv файл. Парсинг в 50 потоков.
    В шаблоне вывода первый столбец - url страницы, которую парсили.
    В ходе парсинга порядка 3000 строк из 10000 в результатирующих файлах получаются без данных, пишется только первая ячейка с url страницы.
    Заметил что ошибка проявляется на при парсинге свыше 10000 страниц. Парсинг с прокси и без.
    Такое впечатление, что в многопоточности данные просто теряются.
    В чем может быть ошибка?
    Пример проекта прилагаю.
     

    Вложения:

  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Данные программой теряться не могут. Сайт, видимо, по какой-то причине, перестает отдавать часть данных. Или "утерянных данных" на каких-то ссылках вовсе нет. Попробуйте сделать выборочный предпросмотр результатов парсинга.
     
  3. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    867
    Данные тереяются не равномерно - к примеру первые 20 строк нормально - потерянная строка - 70 строк нормально - одна-две потерянных строк и т.д.
    - в первую ячейку строки записывается url откуда парсить данные, при переходе на сайт - все данные на странице есть.
    данные уже потерянные в итоговых таблицах. Приходится заново перепаршивать.
    Такая проблема не только на конкретном сайте. Были еще пару сайтов, вначале не придал значение - думал может сам сайт так отдает, но когда ошибка на нескольких сайтах - создал тему.
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Еще раз говорю, данные программа терять не может. Сайт, видимо, так реагирует на частые запросы. Поставьте 1 поток (или подберите оптимальное для этого сайта число потоков) и, уверен, проблема решится.
     

Поделиться этой страницей