Ускорение парсинга через WBapp

Тема в разделе "WBAppCEF", создана пользователем nikoshot, 24 авг 2020.

  1. nikoshot

    nikoshot Member Пользователи

    Регистрация:
    14 янв 2017
    Сообщения:
    115
    Добрый день!
    Делал по инструкции видео
    Вроде парсит все как нужно.. Но сказать что это ускорило то врядли..
    Вот мои настройки Ссылки недоступны для гостей
    Я использовал макрос WEIGHTFORHTML так как мне нужно бы в определенном блоке появился один класс по котрому я дальше фильтрую html
    Возможно есть какой то другой способ или как можно еще ускорить а то 3000 ссылок парсит долговато..
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Используйте современный WBAppCEF

    2020-08-24_14-03-20.png
     
    kagorec нравится это.
  3. nikoshot

    nikoshot Member Пользователи

    Регистрация:
    14 янв 2017
    Сообщения:
    115
    Спасибо буду пробовать..
     
  4. nikoshot

    nikoshot Member Пользователи

    Регистрация:
    14 янв 2017
    Сообщения:
    115
    Пробовал использовать новый WBappCEF но что то не получается.. вот скрин настроек Ссылки недоступны для гостей
    Можно вам проект прислать?
    Вот ссылка на страницу Ссылки недоступны для гостей
     
    Последнее редактирование: 24 авг 2020
  5. nikoshot

    nikoshot Member Пользователи

    Регистрация:
    14 янв 2017
    Сообщения:
    115
    Помогите, ни как не могу получить этот класс Ссылки недоступны для гостей
    В Xpath можно использовать {skip} ? дело в том что этот класс может содержать разное кол-во пробелов...
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Я писал использовать attributes и textcontent.
     

    Вложения:

    Последнее редактирование: 24 авг 2020
    nikoshot нравится это.
  7. nikoshot

    nikoshot Member Пользователи

    Регистрация:
    14 янв 2017
    Сообщения:
    115
    Спасибо!
    Подскажите как открыть окно редктирования F2 что бы увидеть ваши натсройки?
    Потомуц что ексли я нажимаю F2 то он автоматом берет нанные с курсора..
     
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Пожалуйста.

    Смотрите полученный мной XPath в менеджере Javascript.
     
  9. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Ссылки недоступны для гостей
     
  10. nikoshot

    nikoshot Member Пользователи

    Регистрация:
    14 янв 2017
    Сообщения:
    115
    Доброе утро! Я посмтрел но то ли вы меня не так поняли то ли я вообще не понимаю как это работает..
    Вот скрин я указал путь из вашего файла Ссылки недоступны для гостей
    Можете прислать такой же скрин я по нему сделаю..

    Документация я читал.. там вообще не ясно какие можно использовать операторы //@ * {skip} и тд.. если при настроке границ все есно и есть инфо как добраться до нужного класса + поиск замены то тут этого я ничего не нашел..
     
  11. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    У вас тот проект, что я приложил, разве не работает?
     
  12. nikoshot

    nikoshot Member Пользователи

    Регистрация:
    14 янв 2017
    Сообщения:
    115
    Я если честно даже не проверял.. я просто пытаюсь разобратся как эти настройки работают что бы на будущее не задавать лишних вопросов)
    Можете скинуть скрин ваших настроек? И почему бы не сделать так что бы можно было вызвать окно с уже сохраненными настройками...
     
  13. nikoshot

    nikoshot Member Пользователи

    Регистрация:
    14 янв 2017
    Сообщения:
    115
    Добрый день!
    Сегодня запустил парсинг.. все сработало.. но по времени я бы не сказал что WBAppCEF быстрее отработал чем WBApp на IE
    3200 ссылок отработало за 1,5 часа..
    + сегодня было обновление программы.. обновил и во время парсинга вылетела ошибка Ссылки недоступны для гостей может вам что то подскажет...
     
  14. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    С моим проектом в 10 потоков скорость 1,3 документа в секунду. Никаких ошибок не получаю, скорее всего вы что-то не так настроили.

    Приложите ваш проект.
     
  15. nikoshot

    nikoshot Member Пользователи

    Регистрация:
    14 янв 2017
    Сообщения:
    115
     

    Вложения:

    • project.cdp
      Размер файла:
      205 КБ
      Просмотров:
      3
  16. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
  17. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Также мне не понятно, зачем использовать для этого сайта WBApp, вроде и обычным запросом все скачивается.
     
  18. nikoshot

    nikoshot Member Пользователи

    Регистрация:
    14 янв 2017
    Сообщения:
    115
    У них на сайте размерs которых нет в наличии добавляют класс inactive и это только при загрузке страницы...(
    Ссылки недоступны для гостей
     
  19. nikoshot

    nikoshot Member Пользователи

    Регистрация:
    14 янв 2017
    Сообщения:
    115
    Сделал как на скрине.. но на скорость это ни как не повлияло...(
     
  20. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул

     
    Dron25 нравится это.

Поделиться этой страницей