Приветствую всех. Простите, что не отвечаю на сообщения и на форуме. Сильно занят разработкой WBAppCEF3. Почти полностью переработал WBAppCEF. Теперь можно парсить с помощью WBAppCEF3 БЕЗ ПЕРЕЗАПУСКА ПРИЛОЖЕНИЯ ПРИ ЗАГРУЗКЕ КАЖДОГО WEB ДОКУМЕНТА!!! Это дает снижение нагрузки на ПК и значительный прирост в скорости парсинга через WBAppCEF. Пока это Alpha версия и публикую ее для тестов на форуме. Скачать сборку можно по этой ссылке Ссылки недоступны для гостей Для активации нового режима отключите эту опцию И пробуйте парсить во вкладке "Контент"! При запуске парсинга будет открыто количество экземпляров WBAppCEF3 соответствующее количеству потоков. Также усовершенствован алгоритм определения готовности загрузки главного фрейма WEB страницы. По этому уберите из списка событий проверку на готовность загрузки и [INSTANTACTIONS]! Учтите, это Alpha версия и в ней пока нет всех функций! Спасибо!
У меня как раз [INSTANTACTIONS] используется. Т.е. его надо просто отключить и WBA сам будет детектировать загрузку страницы или его надо чем-то заменить?
Просто удалите [INSTANTACTIONS] из списка событий. Это событие мнгновенно запускает список событий при загрузке WEB страницы. Сейчас проверка на завершение загрузки WEB страниц без [INSTANTACTIONS] осуществляется автоматически и после этого происходит запуск списка событий...
Спасибо за доработку. Нужная вещь. я пару дней назад через WBappCef прогнал 30 тыс страниц... ещё то занятие. Но к сожалению всеравно не определяет почты со страницы : Ссылки недоступны для гостей - сайт events@sara.restaurant - почта Ссылки недоступны для гостей - в границе есть ... Возможно оно и не должно решить этот вопрос, но я попробовал сайты которые не смог ранее определить почты - то некоторые определились
Доработал Alpha версию. Ссылки недоступны для гостей Теперь можно парсить сканером сайтов и во вкладке "Ссылки". Завтра планирую наладить передачу Cookie и других данных.
Доработанная версия Ссылки недоступны для гостей Передача прокси в макросе шаблона вывода [WBAPP] включается отдельно его параметром [USEPROXY] Ссылки недоступны для гостей Сделаю передачу других параметров в макрос [WBAPP] позже по запросу и после хорошего тестирования. На данный момент сил не осталось уже.
и все таки я не понимаю почему при открытии страницы в webapp автоматически не выполняется javascript и прочие "post подарки" от incapsula? галочки везде стоят.. а капча как была так и вылезает( она в IE11 у меня не вылезает а тут постоянно. проблема не в прокси.
после сегодняшнего обновления все заработало, как надо) капчу не просит и открывает страницу сразу) спасибо огромное!
Событие WBAppCEF [SNAPSHOT(scroll)]:XPath (где XPath - нужный для рендеринга элемент) делает скриншот, НО видимой области. Для вывода и переименования скриншотов в Content Downloader используются следующие макросы: Код: [RENDERED(1)] - выведет в результат парсинга первую картинку [RENDERED(2)] - выведет в результат парсинга вторую картинку [RENDERED(3)] - выведет в результат парсинга третью картинку [RENDERED(...)] [RENDERED(ALL)] - выведет в результат парсинга все картинки ПРИСВОЕНИЕ ИМЕН ФАЙЛОВ КАРТИНОК [SETRENDEREDNAME(порядковый номер изображения)]имя[/SETRENDEREDNAME] [SETRENDEREDNAME(1)]image1[/SETRENDEREDNAME] - присвоит имя первой картинке [SETRENDEREDNAME(2)]image2[/SETRENDEREDNAME] - присвоит имя второй картинке [SETRENDEREDNAME(3)]image3[/SETRENDEREDNAME] - присвоит имя третьей картинке
Фича работает. Но она загоняет элемент на самый верх страницы и на данном сайте он уходит под шапку сайта. Т.е. перед снимком надо элемент чуть ниже сдвинуть. Там вроде параметр (scroll) есть. На него можно как-то подействовать? Или перед скриншотом потыкать в стрелку вверх. Или не перематывать к элементу, а просто сделать скриншот окна. Элемент можно перед этим другими макросами сделать видимым. UPD Если убрать scroll и оставить просто () элемент как раз не скролится наверх и фоткается как надо. Не работает [SENDKEYPRESS] при запуске проекта. [SETFOCUS] также не работает. Если кликнуть по окну WBAPP мышкой, [SENDKEYPRESS] начинает работать.
Сорри за небольшой офф топ, не смотря на санкции и прочее, нужно отметить и плюсы для нас парсеров - заметил, что со многих популярных сайтов в рунете исчезла защита incapsula и теперь вместо неё используется слегка продвинутый ddos-guard и подобная софтина, которая для наших задач особым препятствием не является, тем более для тех кто парсит сайты внутри страны, из дополнительных ограничений произошла смена google captcha на hcaptcha, что по сути также не является ни минусом ни плюсом, просто надо один раз вначале парсинга её пройти и в большинстве случаев данная капча больше не появится даже через 100-300 страниц как это постоянно бывало с incapsula..
Также смотрите в сторону использования мобильных прокси. Это полностью решает проблему каптчи и бана в 99% случаев.
Сергей есть большая просьба, рассмотрите пожалуйста добавление в webapp макроса предварительного открытия веб-сайта (open Ссылки недоступны для гостей), т.к. некоторые сайты требуют сначала открыть главную страницу сайта а уже потом дают возможность перейти по ссылке внутри (Ссылки недоступны для гостей android) в скобках привел примеры, также очень необходима реализация плавающего-рандомного оператора wait к примеру с шагом в 100 мс а не фиксированного как сейчас.. буду рад ознакомиться с примерами если подобное уже кем-то реализовано на практике в виде скриптов