Парсинг останавливается после 11000 товаров

Тема в разделе "Решение проблем с использованием программы", создана пользователем AndreyJean, 21 сен 2014.

  1. AndreyJean

    AndreyJean New Member Пользователи

    Регистрация:
    12 мар 2014
    Сообщения:
    27
    Раньше не парсил такие большие проекты.
    Всего 33500 страниц.
    После 11000 парсинг останавливается, но программа работает (кнопки тыкаются). На сайт из браузера захожу без проблем, т.е. не бан.
    Если нажать пауза-старт, то CD зависает намертво.
    Первая мысль это просто разбить результат на несколько файлов, но боюсь что потом из-за Dinamicvalues, которым характеристики вытягиваю, перепутаются названия столбцов с Характеристиками. Они очень разные у разных товаров и в новой группе может какого то просто не быть и все в результирующей таблице съедет.

    Посоветуйте как быть. Файл проекта во вложении.
     

    Вложения:

  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Запустил у себя, ждем...
     
  3. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Пока 2500 документов (около 8%)
    Памяти занято программой - 135 мегабайт

    Смотрим дальше...

    PS: Не вижу смысла в 50 потоках в данном случае. Рекомендую ставить 10 для парсинга этого сайта...
     
  4. AndreyJean

    AndreyJean New Member Пользователи

    Регистрация:
    12 мар 2014
    Сообщения:
    27
    сейчас поставил 10 потоков с паузой 100 мс, умер на 4165 ссылке
    но программа все так же отзывается на нажатия
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    хелп мне


    прога до сих пор работает но стоит на месте. можно как то заставить ее продолжить, не нажимая кнопки паузы?
     
    Последнее редактирование: 21 сен 2014
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    1) В диспетчере задач (ctrl+alt+delete) сколько памяти занимает процесс Content Downloader.exe при зависании?

    2) Какая у вас OS?

    3) Есть ли у вас фаервол или антивирус или еще что, что может влиять на работу программы? Если да, то отключите это все и попробуйте парсить...

    4) Стабильный ли у вас интернет?

    5) Можно ли вас попросить отключить функцию парсинга картинок (вкладка "контент" - группа "парсинг и обработка" - кнопка "настройка парсинга картинок..." - снять галочку "загружать) и попробовать пропарсить? Будет ли зависать?

    6) Так же, как и в пункте 5, отключить функции сохранения ссылок в ctrl+l (две галочки внизу окна лога)...
     
  6. AndreyJean

    AndreyJean New Member Пользователи

    Регистрация:
    12 мар 2014
    Сообщения:
    27
    1 максимум 130 МБ
    2 W 8.1 (кстати программа запускается примерно 3 минуты!, Фотошоп запускается секуд 10-20 для сравнения)
    3 Каспер, добавил программу в доверенные, отключал полностью - не помогает
    4 да
    5 сейчас попробую
    6 сделал. запускаю
    Так же поставил совместимость с W 7
     
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Три минуты запускаться не должна, должна запускаться секунд за 10 (это уже не моя оплошность) =)
    У меня тоже зависла на 2967 элементе...
     
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Пробую снова отключив некоторые функции...
     
  9. AndreyJean

    AndreyJean New Member Пользователи

    Регистрация:
    12 мар 2014
    Сообщения:
    27
    у меня пока 13300, после описанных выше действий.
    А запускается долго каждый раз хоть с каспером хоть без. И при запуске ест 50% процессора. ри парсинге всего 25%.
     
  10. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    Предпологаю это со стороны сайта идет блокировка о того и "зависает" парсинг поскольку программа так и предназначена чтоб уперто получать от сайта информацию.
     
  11. AndreyJean

    AndreyJean New Member Пользователи

    Регистрация:
    12 мар 2014
    Сообщения:
    27
    Мне кажется программа несколько умнее чтоб зависать без признаков жизни и ошибок.
    Уже выкачало 28000 ссылок. Т.е. дело видимо либо в картинках либо в сохранении логов, а может и совмесимость с W7 помогла. В общем потом попробую только фото выкачать.
    Обязательно отпишусь что и как.
     
  12. AndreyJean

    AndreyJean New Member Пользователи

    Регистрация:
    12 мар 2014
    Сообщения:
    27
    При парсинге и скачивании картинок снова завис примерно на 11000. Еще парсился только код товара и все. Подскажите что то?
     
  13. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте!

    У меня без картинок за ночь 2 раза подряд все выкачал! Тестирую далее... Позже отпишусь по результатам...

    Кстати, кажется, при парсинге в 10 потоков с паузой 0 гораздо быстрее тянет этот сайт).

    По коду товара вам подсказать не могу, у меня все товары выкачало со всеми данными уже два раза...
     
  14. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Попробуйте:
    вкладка "контент" - группа "парсинг и обработка" - кнопка "настройка парсинга картинок..." - поставить галочку "загружать изображения, выводимые PHP-скриптом"
    При этих настройках, будет использоваться другая функция загрузки файла картинки (в первом случае функция Windows, после установки галочки - внутренняя функция программы).
     
  15. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Да, кажется дело в том, о чем писал в предыдущем сообщении (очень надеюсь!).

    Приложил файл проекта, в котором спарсилось 100% ссылок!

    Приношу извинения за неудобства.

    С уважением к вам, Сергей.
     

    Вложения:

  16. AndreyJean

    AndreyJean New Member Пользователи

    Регистрация:
    12 мар 2014
    Сообщения:
    27
    С начала парсить не стал уж. Но спарсил без зависаний 15000 оставшися ссылок с галочкой "загружать изображения, выводимые PHP-скриптом".
    Видимо пробема действительно в этом.
    Спасибо вам, сам бы в жизни не догадался даже пробовать, т.к. в описании этой функции стоит что ссылки с " ? " должны быть.
     
  17. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Пожалуйста.

    Надеюсь, что проблема именно в этом. Вот запустил еще раз для пробы, уже 12000+ и парсит...

    С уважением к вам, Сергей.
     

Поделиться этой страницей