Как ускорить парсинг при использовании DOM ?

Тема в разделе "WBAppIE", создана пользователем weresa, 23 фев 2018.

  1. weresa

    weresa Active Member Пользователи

    Регистрация:
    14 сен 2014
    Сообщения:
    237
    Попыталась я попарсить сайт rusprofile.ru
    Через обычные библиотеки его не видно, только через DOM.
    На выгрузку раздела в 3 тыс ссылок ушло 9 часов. А необходимо собрать и намного большие разделы, по 10-50 тыс ссылок. Потом программа насмерть завесила весь компьютер (при том что ни одного приложения больше не работало). Да так что я минут 40 не могла закрыть сам Контент, стоящий без движения. И даже волшебная триада Ctrl+Alt+Del не помогла...
    Что не так может быть с моим проектом? Вроде функцию ожидания загрузки в WBApp настроила, а все равно скорость 0,1-0,2 документа в секунду. Или все дело в том, что это сайт такой "вредный"? Неужели его вообще никак нельзя выгрузить? Перспектива парсинга несколько дней подряд меня как-то не радует :(
     

    Вложения:

  2. Felix_b

    Felix_b Well-Known Member Пользователи

    Регистрация:
    30 мар 2017
    Сообщения:
    116
    Пробуйте:
    1- [CLICK][classname][N]0[/N][FULL][ET_WAITFOR]:clearfix

    CTR+R - Галочки все проставьте + Proxy type: HTTP \ Библиотека:INDY
    Запустил Ваш проект при данных настройках, без cookies с использованием 70 прокси в 2 потока - результат 20 часов на все 16+тыс ссылок.

    Чтоб проверить все ли данные на своих местах и есть ли они вообще - прикрепил csv
     

    Вложения:

  3. weresa

    weresa Active Member Пользователи

    Регистрация:
    14 сен 2014
    Сообщения:
    237
    Felix_b, спасибо за попытку решить вопрос. Но у меня через прокси вообще не находит страницу ((
    В 10 потоков с паузой в 5000 мс получается скорость 0,4-0,6 док/сек. Но все равно это не спасает при общем объеме в 15 млн страниц
     
  4. gans

    gans Well-Known Member Пользователи

    Регистрация:
    21 апр 2014
    Сообщения:
    309
    Добрый день! По поводу подвисания - бывают аналогичные проблемы при парсинге большого количества с использованием DOM. Иногда подвисает, висит в процессах и забивает память под завязку. Возможно, проблема на моём компьютере. Уже были предложения и сам не могу дождаться перехода CD на Хромиум! Возможно, будет лучше. Насчет rusprofile - раньше можно было парсить быстро и без DOM. Сам парсил десятки тысяч. Теперь вот так. Могу только посоветовать сменить источник. Если зададитесь целью, найдете. Их хватает. И поверьте мне, rusprofile - не самый надежный источник информации. Телефоны организаций оказываются телефонами квартир, многие организации давным-давно не существуют и т.д.
     
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Если прокси очень медленные, купите быстрые платные.

    Также посмотрите новое видео по ускорению парсинга через WBApp Ссылки недоступны для гостей (внизу)

    Еще обратите внимание на новую библиотеку WIN (может быть можно обойтись с помощью нее, ctrl+h).

    Подвисаний и забиваний памяти быть не должно. Какой процесс у вас забивает память и подвисает, Content Downloader.exe или WBApp.exe?
     
  6. gans

    gans Well-Known Member Пользователи

    Регистрация:
    21 апр 2014
    Сообщения:
    309
    С Content Downloader.exe всё отлично. Wbapp иногда подвисает и висит даже при выключении CD. Вручную прибиваю процесс.
     
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Пробовали ли использовать этот параметр?

    2018-02-24_13-11-05.png
     
    gans нравится это.
  8. gans

    gans Well-Known Member Пользователи

    Регистрация:
    21 апр 2014
    Сообщения:
    309
    Спасибо! Попробую. Не знаю, как у кого, а у меня wbapp работает очень нестабильно. Часто закрывается с ошибками в процессе парсинга(зависит от сайтов). Но, как упоминал выше, грешу на свою систему.
     
  9. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Пожалуйста.

    Какой версии Internet Explorer установлен в вашей системе?
     
  10. gans

    gans Well-Known Member Пользователи

    Регистрация:
    21 апр 2014
    Сообщения:
    309
    IE 11. Win 7 64 bit.
     
  11. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Можете выслать скриншоты ошибок, которые получаете?
     
  12. gans

    gans Well-Known Member Пользователи

    Регистрация:
    21 апр 2014
    Сообщения:
    309
    Предоставлю. Сейчас удалил проекты, которые плохо работали. Отпишусь в личку, когда проблема возникнет в ближайшее время.
     
    Последнее редактирование: 25 фев 2018

Поделиться этой страницей