Развитие многовкладочного браузера для парсинга

Тема в разделе "WBApp2", создана пользователем Root, 18 июн 2021.

  1. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Скачать WBApp2 можно здесь Ссылки недоступны для гостей



    2021-06-18_08-31-15.png

    Программа WBApp2 разрабатывается на основе Chromium (CEF - Chromium Embedded Framework) и служит для быстрого парсинга WEB страниц с помощью движка браузера.

    В WBApp2 реализована многовкладочность для многопоточного парсинга WEB страниц.
     
    Последнее редактирование: 19 июн 2021
    ivan881488, JAGUAR и Dron25 нравится это.
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Сегодня добавлены опции для включения/отключения загрузки картинок и выполнения Javascript.

    Выключите картинки и Javascript для более быстрого парсинга.

    2021-06-19_05-26-46.png
     
    Последнее редактирование: 19 июн 2021
    JAGUAR нравится это.
  3. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Добавлена возможность использовать список прокси-серверов.

    Подходят прокси IpV4 HTTP(S)/SOCKS4
    SOCKS5 почему-то у меня не сработали в Chromium.

    2021-06-19_04-51-50.png
     
    Последнее редактирование: 19 июн 2021
    JAGUAR нравится это.
  4. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    Прокси socks5 от одного популярного сервиса, формат ip : Port (список в данный момент используется при масштабном парсинге в cd) был добавлен в Wbap2.
    Отключены картинки и яваскрипт.
    На 10 потоков - после 56 ссылок Wbap2 перестает откликаться на нажатие кнопок.

    п.с. список прокси socks5 приложил бы, но они привязаны к моему компу.
     
    Последнее редактирование: 19 июн 2021
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Если можно, под хайдом приложите список ссылок и прокси, проверю.
     
  6. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1234567 постов.**
     
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Проверю, спасибо.
     
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Да, есть проблема с доступом к интерфейсу. Постараюсь решить.

    Но зависаний не заметил, процесс должен дойти до завершения.
     
  9. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Вроде исправил.
     
    JAGUAR нравится это.
  10. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    2021-06-20_07-07-24.png

    Добавлена опция паузы между запросами
    В заголовках вкладок теперь отображается статус загрузки и количество скачанных этой вкладкой WEB документов
    Множество других доработок
     
    JAGUAR нравится это.
  11. mur

    mur New Member Пользователи

    Регистрация:
    5 июн 2014
    Сообщения:
    44
    супеер. то что надо, спасибо! будем тестить
     
    JAGUAR и Root нравится это.
  12. Smodey

    Smodey Active Member Пользователи

    Регистрация:
    27 ноя 2013
    Сообщения:
    59
    А, во, появилась темка! (когда писал коммент из 4-ёх пунктов Ссылки недоступны для гостей тут, её ещё не было ).
    Хотел предложить там, но лучше уж тут. Хотел предложить создание темы именно на форуме, чтобы больше людей увидело. Но это уже сделали.
    Поэтому предложу, разместить её на главной форума, даже над "Связь с разработчиком" да и выделить каким-нибудь выжигающим глаза цветом :)
    По моему мнению, там намного больше людей увидят тему (сам вообще случайно зашёл на главную сайта, ибо больше смотрел форум).
    Я думаю многие пользователи поймут такой ход и не осудят, ибо для них же и делается.
    Смысл: больше людей - больше нестандартных идей для разработки, что всем пойдёт только на пользу.
     
    Root нравится это.
  13. Smodey

    Smodey Active Member Пользователи

    Регистрация:
    27 ноя 2013
    Сообщения:
    59
    Посмотрев видео по горко.ру
    Что я могу сказать... Просто одним словом... ВАУ!111
    Это на самом деле классная идея распределять ссылки под парсинг не как каждую, в новом инстансе браузера, а по вкладкам, без перезапуска инстанса. Но, это для простых сайтов наверное только подойдёт. А как на счёт сложных с защитами? (я просто не знаю как реализованы вкладки и их зависимость между собой с другими открытыми вкладками).
    Вот например, если бы вот каждой вкладке помимо своей прокси - выдавалался бы свой юзер-агент (например из списка заданныХ) да и куки-контейнер бы наполнялся(посто из того, по чему переходил до этого), то было бы очень неплохое решение в связи с массовым добавлением recaptcha v3 на сайты, которая как раз и основывается на истории посещений(Но это так, задел на будущее).


    С удовольствием буду периодически заходить в тему и отписываться по безумным идеям, которые придут в голову :)
     
    Root нравится это.
  14. Smodey

    Smodey Active Member Пользователи

    Регистрация:
    27 ноя 2013
    Сообщения:
    59
    P.S. Чтобы не потерялось. Чекер прокси прямо при парсинге, который проверяет наличие определённого текста в html коде странички. Если есть - сохраняем, если нету - то не сохраняем и кидаем ссылку в конец списка для дальнейшего парсинга. Естественно, опция вкл/выкл.
     
    Root нравится это.
  15. Slavikprof

    Slavikprof New Member Пользователи

    Регистрация:
    10 ноя 2016
    Сообщения:
    5
    Очень хорошое дополнение, скорость парсинга увеличилась, тестирую. Спасибо!
     
  16. Smodey

    Smodey Active Member Пользователи

    Регистрация:
    27 ноя 2013
    Сообщения:
    59
    Всем доброго дня/ночи. Было бы ещё неплохо добавить возможность самостоятельно указывать путь сохранения документов. В нынешнее время думаю уже у многих софт стоит на ssd, а данные возможно парсятся на hdd (если их много). Для большинства пользователей думаю это не критично, но... Есть ещё извращенцы вроде меня :)
    upload_2021-6-23_0-45-34.png
    upload_2021-6-23_0-46-44.png
     
  17. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Теперь можно использовать WBApp2 в связке с Content Downloader

    Ссылки недоступны для гостей
     
    JAGUAR и webstep нравится это.
  18. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Приветствую!
    1) Это все спокойно можно перенести на CD X2, убрав кучу юридического .... и прибавив финансовое!
    2) Прокси как работали все это время никак/паршиво, (т.к. светят реальный ip) так по факту ничего и не изменилось, сомневаюсь что обработка проксей претерпела какое-то изменение.
    3) Функционал хорош, но он просто дрочит диск. На других прогах в 100 потоков можно через прокси такое реализовывать, я не говорю что это плохо (я про диск). Просто миллион товаров ты не обработаешь в 10 потоков в течении суток, и это нужно оговаривать!. А вообще у меня 35% проектов работает тупо через такое сохранение с последующей обработкой (при изменении ТЗ оперативно меняешь, и просто пересоберёшь)
    4) Да, это удобно, УДОБНО! НО! Это надо делать только на ssd, если винт SATA можете смело покупать через пол годика новый.
    5) прокси только socks4 или socks5, http даже не рассматривать + поддержка протокола IPV6 + добавить авторизированный доступ (с проксями у нас беда, об этом ни раз говорилось - СВЕТИТ РЕАЛЬНЫЙ АДРЕСС, дает КАПЧУ) , из-за чего софт и перестает быть популярный у тех, кто работает с ним годами)
    6) Потенциал у дополнения огромный, главное его применить!
    Спасибо !
     
  19. ITz

    ITz Member Пользователи

    Регистрация:
    31 янв 2020
    Сообщения:
    43
    Город:
    Third Rome
    всем привет,

    Сергею большое спасибо за скоростное нововведение WebApp2, соглашусь со всем вышесказанным, добавлю от себя:

    проксики очень важная вещь, их нужно проработать по максимуму, возможно даже с внешними обработчиками

    популярная защита incapsula если кто еще не в курсе перед заходом на сайт запускает свой "маленький" java script в нашем броузере на долю секунды и ждет возврата данных из него, в целом проблем с этим нет если у вас внешний ip с высоким рейтингом и подходящим country code и используются разумные настройки парсинга, в противном случае нужно использовать много прокси с проверкой на капчу (подгрузку правильного ответа с сайта), считаю реализацию последнего самым оптимальным решением

    цель по прежнему проста сделать так, что-бы системы защиты думали, что мы обычные пользователи, и да - в 21 году работать и парсить без ссд бредовая идея.. :)
     
  20. mur

    mur New Member Пользователи

    Регистрация:
    5 июн 2014
    Сообщения:
    44
    у меня какая-то проблема с кириллицей. пробовал разные сайты. вот везде такие вопросики

    upload_2021-7-5_15-57-4.png
     

Поделиться этой страницей