Проблема - CD парсит не все страницы.

Тема в разделе "Разное", создана пользователем boodooboo, 4 ноя 2010.

  1. boodooboo

    boodooboo New Member Пользователи

    Регистрация:
    15 мар 2010
    Сообщения:
    27
    Собственно, сабж.

    Ссылки недоступны для гостей

    На скрине подчеркнуто, не хватает 5 статей. При парсинге постоянно теряется от 5 до 10 статей.

    UP: На жестком диске сохранилось всего 1022 статей.

    UP:CD показывает, что спарсил 1055 статей из 1058, а на жестком диске - всего 818 статей. Где остальное?
     
    Последнее редактирование: 4 ноя 2010
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Если вы задаете границы парсинга, программа сохраняет только те документы, на которых находятся эти границы.
    Если вы задали минимальную длину статей, программа сохранит только те документы, которые удовлетворяют данному фильтру.
    Сайт может блокировать частые запросы, пробуйте уменьшить количество потоков.

    PS: Не надо грешить на софт. Программа сохраняет все документы, которые удалось загрузить, ничего не теряется...
     

Поделиться этой страницей