WBAppCEF3 Alpha!

Тема в разделе "Развитие Content Downloader", создана пользователем Root, 20 дек 2021.

  1. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Приветствую всех.

    Простите, что не отвечаю на сообщения и на форуме. Сильно занят разработкой WBAppCEF3.

    Почти полностью переработал WBAppCEF. Теперь можно парсить с помощью WBAppCEF3 БЕЗ ПЕРЕЗАПУСКА ПРИЛОЖЕНИЯ ПРИ ЗАГРУЗКЕ КАЖДОГО WEB ДОКУМЕНТА!!!

    Это дает снижение нагрузки на ПК и значительный прирост в скорости парсинга через WBAppCEF.

    Пока это Alpha версия и публикую ее для тестов на форуме.

    Скачать сборку можно по этой ссылке Ссылки недоступны для гостей

    Для активации нового режима отключите эту опцию

    2021-12-20_21-27-59.png

    И пробуйте парсить во вкладке "Контент"!

    При запуске парсинга будет открыто количество экземпляров WBAppCEF3 соответствующее количеству потоков.

    Также усовершенствован алгоритм определения готовности загрузки главного фрейма WEB страницы. По этому уберите из списка событий проверку на готовность загрузки и [INSTANTACTIONS]!

    Учтите, это Alpha версия и в ней пока нет всех функций!


    Спасибо!
     
    kadishev1997 и kagorec нравится это.
  2. Serheo

    Serheo Well-Known Member Пользователи

    Регистрация:
    13 окт 2018
    Сообщения:
    251
    Город:
    Москва
    У меня как раз [INSTANTACTIONS] используется. Т.е. его надо просто отключить и WBA сам будет детектировать загрузку страницы или его надо чем-то заменить?
     
  3. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Просто удалите [INSTANTACTIONS] из списка событий. Это событие мнгновенно запускает список событий при загрузке WEB страницы. Сейчас проверка на завершение загрузки WEB страниц без [INSTANTACTIONS] осуществляется автоматически и после этого происходит запуск списка событий...
     
    Serheo нравится это.
  4. webstep

    webstep Member Пользователи

    Регистрация:
    6 дек 2020
    Сообщения:
    129
    Город:
    Kiev
    Спасибо за доработку. Нужная вещь. я пару дней назад через WBappCef прогнал 30 тыс страниц... ещё то занятие. Но к сожалению всеравно не определяет почты со страницы :
    Ссылки недоступны для гостей - сайт
    events@sara.restaurant - почта
    Ссылки недоступны для гостей - в границе есть ...
    Возможно оно и не должно решить этот вопрос, но я попробовал сайты которые не смог ранее определить почты - то некоторые определились :)
     
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Пожалуйста

    Почты попозже. Помню про них.
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Доработал Alpha версию.

    Ссылки недоступны для гостей

    Теперь можно парсить сканером сайтов и во вкладке "Ссылки".

    Завтра планирую наладить передачу Cookie и других данных.
     
    Serheo нравится это.
  7. Serheo

    Serheo Well-Known Member Пользователи

    Регистрация:
    13 окт 2018
    Сообщения:
    251
    Город:
    Москва
    Очень жду поддержку заголовков, юзер агентов, прокси и поддержку вызова макросом WBAPP.
     
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    2021-12-23_01-14-38.png

    Доработанная версия Ссылки недоступны для гостей

    Передача прокси в макросе шаблона вывода [WBAPP] включается отдельно его параметром [USEPROXY] Ссылки недоступны для гостей

    Сделаю передачу других параметров в макрос [WBAPP] позже по запросу и после хорошего тестирования. На данный момент сил не осталось уже.
     
    kagorec нравится это.
  9. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Рискнул и выпустил обновление
     
    ITz, kagorec и Slavikprof нравится это.
  10. ITz

    ITz Member Пользователи

    Регистрация:
    31 янв 2020
    Сообщения:
    43
    Город:
    Third Rome
    обновление обалденное, и как всегда вовремя) мегареспект
     
    Slavikprof, Serheo и Root нравится это.
  11. ITz

    ITz Member Пользователи

    Регистрация:
    31 янв 2020
    Сообщения:
    43
    Город:
    Third Rome
    и все таки я не понимаю почему при открытии страницы в webapp автоматически не выполняется javascript и прочие "post подарки" от incapsula? галочки везде стоят.. а капча как была так и вылезает( она в IE11 у меня не вылезает а тут постоянно. проблема не в прокси.
     
  12. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Какой сайт парсите?
     
  13. ITz

    ITz Member Пользователи

    Регистрация:
    31 янв 2020
    Сообщения:
    43
    Город:
    Third Rome
    после сегодняшнего обновления все заработало, как надо) капчу не просит и открывает страницу сразу) спасибо огромное!
     
    Root нравится это.
  14. Serheo

    Serheo Well-Known Member Пользователи

    Регистрация:
    13 окт 2018
    Сообщения:
    251
    Город:
    Москва
    Сергей, очень надо сделать скриншоты. Как их сделать в новом WBA?
     
  15. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Событие WBAppCEF [SNAPSHOT(scroll)]:XPath (где XPath - нужный для рендеринга элемент) делает скриншот, НО видимой области.

    Для вывода и переименования скриншотов в Content Downloader используются следующие макросы:
    Код:
    [RENDERED(1)] - выведет в результат парсинга первую картинку
    [RENDERED(2)] - выведет в результат парсинга вторую картинку
    [RENDERED(3)] - выведет в результат парсинга третью картинку
    [RENDERED(...)]
     
    [RENDERED(ALL)] - выведет в результат парсинга все картинки
     
     
    ПРИСВОЕНИЕ ИМЕН ФАЙЛОВ КАРТИНОК
     
    [SETRENDEREDNAME(порядковый номер изображения)]имя[/SETRENDEREDNAME]
    [SETRENDEREDNAME(1)]image1[/SETRENDEREDNAME] - присвоит имя первой картинке
    [SETRENDEREDNAME(2)]image2[/SETRENDEREDNAME] - присвоит имя второй картинке
    [SETRENDEREDNAME(3)]image3[/SETRENDEREDNAME] - присвоит имя третьей картинке
     
    Serheo нравится это.
  16. Serheo

    Serheo Well-Known Member Пользователи

    Регистрация:
    13 окт 2018
    Сообщения:
    251
    Город:
    Москва
    Фича работает. Но она загоняет элемент на самый верх страницы и на данном сайте он уходит под шапку сайта. Т.е. перед снимком надо элемент чуть ниже сдвинуть. Там вроде параметр (scroll) есть. На него можно как-то подействовать? Или перед скриншотом потыкать в стрелку вверх.
    Или не перематывать к элементу, а просто сделать скриншот окна. Элемент можно перед этим другими макросами сделать видимым.

    UPD Если убрать scroll и оставить просто () элемент как раз не скролится наверх и фоткается как надо.

    Не работает [SENDKEYPRESS] при запуске проекта. [SETFOCUS] также не работает. Если кликнуть по окну WBAPP мышкой, [SENDKEYPRESS] начинает работать.
     
    Последнее редактирование: 2 фев 2022
  17. ITz

    ITz Member Пользователи

    Регистрация:
    31 янв 2020
    Сообщения:
    43
    Город:
    Third Rome
    Сорри за небольшой офф топ, не смотря на санкции и прочее, нужно отметить и плюсы для нас парсеров - заметил, что со многих популярных сайтов в рунете исчезла защита incapsula и теперь вместо неё используется слегка продвинутый ddos-guard и подобная софтина, которая для наших задач особым препятствием не является, тем более для тех кто парсит сайты внутри страны, из дополнительных ограничений произошла смена google captcha на hcaptcha, что по сути также не является ни минусом ни плюсом, просто надо один раз вначале парсинга её пройти и в большинстве случаев данная капча больше не появится даже через 100-300 страниц как это постоянно бывало с incapsula..
     
  18. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Также смотрите в сторону использования мобильных прокси. Это полностью решает проблему каптчи и бана в 99% случаев.
     
    ITz и TeslaCo нравится это.
  19. ITz

    ITz Member Пользователи

    Регистрация:
    31 янв 2020
    Сообщения:
    43
    Город:
    Third Rome
    Сергей есть большая просьба, рассмотрите пожалуйста добавление в webapp макроса предварительного открытия веб-сайта (open Ссылки недоступны для гостей), т.к. некоторые сайты требуют сначала открыть главную страницу сайта а уже потом дают возможность перейти по ссылке внутри (Ссылки недоступны для гостей android) в скобках привел примеры, также очень необходима реализация плавающего-рандомного оператора wait к примеру с шагом в 100 мс а не фиксированного как сейчас.. буду рад ознакомиться с примерами если подобное уже кем-то реализовано на практике в виде скриптов :)
     

Поделиться этой страницей