Планировщик заданий и DOM

Тема в разделе "Решение проблем с использованием программы", создана пользователем dmitryt, 28 июл 2014.

  1. dmitryt

    dmitryt New Member Пользователи

    Регистрация:
    24 июн 2014
    Сообщения:
    110
    Добрый день!

    Использую стандартный планировщик заданий для запуска парсинга по расписанию. Проект парсинга использует DOM. С настройками "Выполнять только для зарегистрированных пользователей" запускается и отрабатывается всё отлично. Проблема в том, что пользователь иногда бывает незалогинен и данная конфигурация неуместна. С настройкой "Выполнять вне зависимости от регистрации пользователя" Content Downloader работает некорректно - загружается только малая часть документов и сам парсинг идет гораздо дольше.
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Ссылки недоступны для гостей

     
  3. dmitryt

    dmitryt New Member Пользователи

    Регистрация:
    24 июн 2014
    Сообщения:
    110
    Увеличил таймаут до 10000 и поставил 2 потока. Парсинг 4250 ссылок длился 8 часов...

    Проблема явно в том, что программу запускаю в Планировщеке заданий Windows в режиме "Выполнять вне зависимости от регистрации пользователя". Если ставить только для залогиненых пользователей, программа работает стабильно.. Осёл всё портит.
     
    Последнее редактирование: 29 июл 2014
  4. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    1) Нажимаем в программе сочетание клавиш ctrl+h
    2) В окошке (см рисунок) увеличиваем значение, например до 3000 МС
    3) На главной странице "Контент" проверяем количество потоков (вместо 10, должно быть 1 или 2)
     

    Вложения:

  5. gustav

    gustav New Member Пользователи

    Регистрация:
    29 ноя 2015
    Сообщения:
    9
    Добрый день.

    Сделал аналогичное при аналогичнорй проблеме.

    Вопрос - как увеличить скорость?
    Скорость 2 потока. Не для того приобреталась Ultimate с 50 потоками.
    Парсить будет 19 суток, а мне нужно за 2 дня(
     
  6. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Добрый день!
    Внесу ясность для вас, программа utimate содержит wbapp и ряд других полезных функций, а 50 потоков, это как бонус.
    Сейчас почти все сайты имеют бан по количеству подключений к сайты в секунду. И за 2 года, больше чем 5 потоков для сайтов которые с товарами почти не применяется.

    Вердикт.
    1) возможно использование wbapp необоснованное.
    2) сам сайт лежит на плохом хостинге (очень частое явление)
    3) сам сайт слишком обвешан жабаскриптами (в наше время, это почти везде)
    4) у вас плохая скорость интернета.
    5) другие причины)
     
  7. gustav

    gustav New Member Пользователи

    Регистрация:
    29 ноя 2015
    Сообщения:
    9
    Бан по количеству подключений к сайту в секунду с одного IP?

    Поможет ли тогда прокси лист подгруженный в программу?

    Поможет ли эта конструкция ускорить процесс?
    [REPEAT]
    [CLICK][classname][N]0[/N][FULL]:pd_price
    [IFNOTCLICKED]
    [WAIT]:200
    [/REPEAT]
    [/IFNOTCLICKED]

    Поможет ли запуск на нескольких компах?

    Меня интересуют способы ускорения парсинга.
    Сейчас 0,2 документа в секунду, нужно раз в 5-10 быстрее.
     
    Последнее редактирование: 30 ноя 2015
  8. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.433
    Адрес:
    Latvia
    Значительно ускорит, но как отметили ранее в теме (да и на форуме повторялось) что каждый источник требует индивидуального подхода. Поставьте вместо 2 потоков 10, обязательно увеличьте время ожидания до 5555 чтоб прогрузилась страница при обращении.
     

Поделиться этой страницей