Развитие многовкладочного браузера для парсинга

Тема в разделе "WBApp2", создана пользователем Root, 18 июн 2021.

  1. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.143
    Город:
    Барнаул
    Выберите кодировку ANSI или UTF-8 в окне задания границ парсинга.

    2021-07-05_22-28-08.png
     
    mur нравится это.
  2. mur

    mur New Member Пользователи

    Регистрация:
    5 июн 2014
    Сообщения:
    44
    маленькая скорость почему-то. 10 вкладок и одна вкладка тратит на каждое открытие по 05,-1 секунде. от чего скорость зависит?

    вот список ссылок
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 99 постов.**
     
  3. masrub

    masrub Member Пользователи

    Регистрация:
    29 июн 2018
    Сообщения:
    66
    Сергей нужно добавить возможность копирования ссылок которые загружаем для парсинга. Ситуация следующая. Я вставляю ссылки для прасинга, например яндекса, через 3 ссылки вылезает капча или прочие прелести, останавливаем парсинг. Вниз сохранились 3 ссылки с результатом html, 7 ссылок не обработанные. Вот эти 7 ссылок сейчас никак не скопировать.
    Есть ли возможность прикрутить проверку содержимого страницы вкладки на наличие текста. Если вылезает капча то страница бы не сохранялась с капчей.
     
    Felix_b и Root нравится это.
  4. aresa

    aresa Well-Known Member Пользователи

    Регистрация:
    17 окт 2015
    Сообщения:
    176
    Добрый день!

    Добавлю свои наблюдения, котррые успел заметить:
    1. Было бы полезно использовать свой проект WBApp. Скрипты отрабатывают, но что если для прогрузки страницы не нужно выполнение скриптов, а только дождаться, например нужного элемента. Скорость бы еще увеличилась.
    2. Если закрыть WBApp2 не сохранив ссылки и повторно войти в него, то спаршенные в последний раз ссылки не сохранились.
    3. При сборе ссылок по sitemap и использовании опции "Автоматический запуск парсинга контента или ссылок после загрузки карты сайта" происходит обычный парсинг во вкладке "Контент". Хотя галочка автоматического запуска WBApp2 стоит.
    Спасибо огромное, функционал классный!
     
    Root нравится это.
  5. Trenikola

    Trenikola Member Пользователи

    Регистрация:
    8 июн 2013
    Сообщения:
    53
    У меня в проекте запись файла происходит раньше скрипта подгрузки сайта, и еще- файл htm всегда одного размера, без нужных данных. Кнопка JS включена)

    вот ссылки для примера

    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей

    Посмотрите, пож-та! Заранее благодарен!
     
    Последнее редактирование: 22 авг 2021
  6. mur

    mur New Member Пользователи

    Регистрация:
    5 июн 2014
    Сообщения:
    44
    Добавьте возможность выбора папки сохранения результатов, чтобы не приходилось заново прогонять урлы, а использовать старые результаты
     

Поделиться этой страницей