Как спарсить email, если стоит защита [javascript protected email address]

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем sawwwok, 18 авг 2015.

  1. sawwwok

    sawwwok New Member Пользователи

    Регистрация:
    18 авг 2015
    Сообщения:
    6
    Задача: Спарсить поля Название компании, Директор, Тел, Электронная почта и т.п. со страницы
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    в настройках границ парсинга где поле меил отображается [javascript protected email address], хотя на странице почта есть

    Как обойти защиту и спарсить меил?
     

    Вложения:

    • 111.jpg
      111.jpg
      Размер файла:
      77 КБ
      Просмотров:
      31
  2. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    ctrl+h включить обработку яваскрипт для контент.
     

    Вложения:

    • mail.png
      mail.png
      Размер файла:
      31,7 КБ
      Просмотров:
      49
  3. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Более конкретно: нажать ctrl+h, включить галочку "контент" и задавать границы парсинга для взятия e-mail.

    С уважением к вам, Сергей.
     
  4. sawwwok

    sawwwok New Member Пользователи

    Регистрация:
    18 авг 2015
    Сообщения:
    6
    Спасибо. Разобрался!
     
  5. sawwwok

    sawwwok New Member Пользователи

    Регистрация:
    18 авг 2015
    Сообщения:
    6
    Еще вопрос.
    Для чего нужен WBApp? Я не совсем понял, из того что описано в help.
     
  6. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    Wbapp - многофункциональный инструмент для парсинга сайтов где требуется обработка DOM (яваскрипт/ajax).
    С помощью этого инструмента можно при обращении к странице задать некоторые действия по условию (например) :
    * при требовании ввести каптчу, wbapp разгадывает автоматически и продолжает парсить.
    * сфотографировать часть страницы и сохранить картинку на диск
    * прокрутить страницу вниз чтобы подгрузить скрытые страницы (например как в twitter.com)
    * ввести данные в форму сайта и отправить (например сделать авто-авторизацию)
    ... и т.д.

    Многочисленное применение, насколько хватает стремления, рутинные работы автоматизировать можно в пару кликов.
     
  7. sawwwok

    sawwwok New Member Пользователи

    Регистрация:
    18 авг 2015
    Сообщения:
    6
    То есть, если мне нужно парсить данные защищенные яваскриптом, как в моем первом случае, где я ставил галочку "контент", то мне нужно покупать только ULTIMATE? или для таких задач и подойдет версия без WBApp?
     
  8. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    Не обязательно, в данном случае подойдет лубая версия лицензии Contentr Downloader.
    п.с. DEMO версии не в счет))
     
  9. sawwwok

    sawwwok New Member Пользователи

    Регистрация:
    18 авг 2015
    Сообщения:
    6
    Ok! +1 новый юзер Contentr Downloader))
     
  10. Seogrom

    Seogrom New Member Пользователи

    Регистрация:
    13 сен 2013
    Сообщения:
    3
    А можете поделится этим проектом ? просто я сейчас как раз занят его парсингом, та же проблема с email ..
     
  11. Umat

    Umat New Member Пользователи

    Регистрация:
    12 авг 2019
    Сообщения:
    2
    Город:
    Москва
    Добрый день, коллеги!

    Проблема похожая, но сложнее.
    Вот пример страницы Ссылки недоступны для гостей
    На ней email при заходе из браузера есть, а при просмотре кода страницы - нет.

    Подскажите, что это за защита зверская и как такого супостата перепарсить?
     
    Последнее редактирование: 12 авг 2019
  12. Djahat

    Djahat Well-Known Member Пользователи

    Регистрация:
    14 янв 2013
    Сообщения:
    543
    Город:
    Мордор
    Через WBAPP CEF - ПАРСИТ - http://forum.sbfactory.ru/threads/ustanovka-wbappcef.7673
     
    Root нравится это.
  13. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Также рассмотрите такой вариант
    Ссылки недоступны для гостей

    PS: На данном сайте этот метод не проверял.
     
    Djahat нравится это.
  14. Virtuoz

    Virtuoz New Member Пользователи

    Регистрация:
    17 июн 2013
    Сообщения:
    3
    Здравствуйте!

    В топике по улучшению программы было такое предложение:
    https://forum.sbfactory.ru/threads/predlozhenija-po-uluchsheniju-programmy.13/page-99#post-49938

    Есть ли сейчас подвижки в этом направлении?
    Или единственным вариантом является включение wbapp?

    Допустим, нужно спарсить ЕМАИЛ управляшки mail@uk-zarechie.ru вот с этой страницы:
    Ссылки недоступны для гостей

    (ссылку взял по мотивам официального обучающего видео

    )

    С выключенным wbapp при задании границ парсинга отображается такой код:

    Код:
    <dt>E-mail</dt>
    <dd><a href="/cdn-cgi/l/email-protection" class="__cf_email__" data-cfemail="670a060e0b27120c4a1d061502040f0e02491512">[email&#160;protected]</a></dd>
    В мониторе сети в FireFox подозрение падает только на скрипт
    Ссылки недоступны для гостей

    Но он вызывается GET-запросом. И как передать параметры, я не понимаю.

    Подскажите, как в данном примере спарсить e-mail без wbapp ?

    Спасибо.
     
  15. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Вот так.

    3 URL в секунду с 3 потоками.

    Версия программы должна быть актуальная!
     

    Вложения:

    • mingkh_ru.cdp
      Размер файла:
      53,7 КБ
      Просмотров:
      8
    Virtuoz нравится это.

Поделиться этой страницей