Развитие многовкладочного браузера для парсинга

Тема в разделе "WBApp2", создана пользователем Root, 18 июн 2021.

  1. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Выберите кодировку ANSI или UTF-8 в окне задания границ парсинга.

    2021-07-05_22-28-08.png
     
    mur нравится это.
  2. mur

    mur New Member Пользователи

    Регистрация:
    5 июн 2014
    Сообщения:
    44
    маленькая скорость почему-то. 10 вкладок и одна вкладка тратит на каждое открытие по 05,-1 секунде. от чего скорость зависит?

    вот список ссылок
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 99 постов.**
     
  3. masrub

    masrub Well-Known Member Пользователи

    Регистрация:
    29 июн 2018
    Сообщения:
    194
    Сергей нужно добавить возможность копирования ссылок которые загружаем для парсинга. Ситуация следующая. Я вставляю ссылки для прасинга, например яндекса, через 3 ссылки вылезает капча или прочие прелести, останавливаем парсинг. Вниз сохранились 3 ссылки с результатом html, 7 ссылок не обработанные. Вот эти 7 ссылок сейчас никак не скопировать.
    Есть ли возможность прикрутить проверку содержимого страницы вкладки на наличие текста. Если вылезает капча то страница бы не сохранялась с капчей.
     
    Felix_b и Root нравится это.
  4. aresa

    aresa Well-Known Member Пользователи

    Регистрация:
    17 окт 2015
    Сообщения:
    180
    Добрый день!

    Добавлю свои наблюдения, котррые успел заметить:
    1. Было бы полезно использовать свой проект WBApp. Скрипты отрабатывают, но что если для прогрузки страницы не нужно выполнение скриптов, а только дождаться, например нужного элемента. Скорость бы еще увеличилась.
    2. Если закрыть WBApp2 не сохранив ссылки и повторно войти в него, то спаршенные в последний раз ссылки не сохранились.
    3. При сборе ссылок по sitemap и использовании опции "Автоматический запуск парсинга контента или ссылок после загрузки карты сайта" происходит обычный парсинг во вкладке "Контент". Хотя галочка автоматического запуска WBApp2 стоит.
    Спасибо огромное, функционал классный!
     
    Root нравится это.
  5. Trenikola

    Trenikola Member Пользователи

    Регистрация:
    8 июн 2013
    Сообщения:
    60
    У меня в проекте запись файла происходит раньше скрипта подгрузки сайта, и еще- файл htm всегда одного размера, без нужных данных. Кнопка JS включена)

    вот ссылки для примера

    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей

    Посмотрите, пож-та! Заранее благодарен!
     
    Последнее редактирование: 22 авг 2021
  6. mur

    mur New Member Пользователи

    Регистрация:
    5 июн 2014
    Сообщения:
    44
    Добавьте возможность выбора папки сохранения результатов, чтобы не приходилось заново прогонять урлы, а использовать старые результаты
     
  7. KHV

    KHV New Member Пользователи

    Регистрация:
    15 мар 2011
    Сообщения:
    23
    Отличная программа! Процесс парсинга ускорился во много десятков раз по сравнению с WBApp. Спасибо!

    P.S. Хотя сейчас посмотрел и не всегда почему-то удается получить нужные данные. Только некоторые страницы. Причину не могу понять. Уже и кеш чистил, и тайм-аут менял.
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 100 постов.**
     
    Последнее редактирование: 17 ноя 2021
  8. masrub

    masrub Well-Known Member Пользователи

    Регистрация:
    29 июн 2018
    Сообщения:
    194
    Что то немного затупил, а как сюда передать авторизацию на сайте?
     
  9. sten30

    sten30 Active Member Пользователи

    Регистрация:
    7 авг 2014
    Сообщения:
    228
    Как связывать список файлов со ссылками? Это основное препятствие в использовании плагина
     

Поделиться этой страницей