Помогите разобраться с парсингом email адресов

Тема в разделе "Решение различных задач по парсингу", создана пользователем Vladyslav, 20 фев 2015.

  1. Vladyslav

    Vladyslav Member Пользователи

    Регистрация:
    20 фев 2015
    Сообщения:
    58
    Здравствуйте, ранее для парсинга email адресов использовал макрос [EXTRACTEMAILS][/EXTRACTEMAILS].

    Однако, для текущей задачи он мне не подходит.

    А задача следующая: нужно с конкретных страниц брать только один email совпадающий с именем домена.
    К примеру, домен sbfactory.ru и три ситуации:
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    Нужно, чтобы в каждой ситуации парсился только email, который содержит часть домена до точки, то есть sbfactory.

    Как реально реализовать подобное?
     
  2. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.429
    Адрес:
    Latvia
    Дорабатывать наверно надо вручную результат.
    При парсинге сохранять домен и через разделитель список собранных майлов с сайта, на у приходит фильтрование через подключенный php script
     
  3. Vladyslav

    Vladyslav Member Пользователи

    Регистрация:
    20 фев 2015
    Сообщения:
    58
    Скажите, есть ли возможность в CD парсить с помощью регулярных выражений? Не поиск-замена, а именно парсинг с использованием регулярок во вкладке контент?
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Ссылки недоступны для гостей
     
  5. Vladyslav

    Vladyslav Member Пользователи

    Регистрация:
    20 фев 2015
    Сообщения:
    58
    Спасибо с регуляркой и ее использованием разобрался, но появился новый вопрос: как заменить текст в регулярке до ее выполнения?

    То есть в регулярном выражении есть имя домена, в каждом новом случае, его нужно менять на домен, с которого происходит парсинг.
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Нет такой возможности.

    Советую сейчас не придумывать решения самостоятельно, а просто огласить задачу (что изначально нужно было сделать). Думаю, это проще и вам и нам.
     
  7. Vladyslav

    Vladyslav Member Пользователи

    Регистрация:
    20 фев 2015
    Сообщения:
    58
    Необходимо собирать со страниц email адреса по определенному критерию:
    К примеру, страница для парсинга - site.ru
    Необходимо собрать email адреса следующего вида:
    site@*
    *site@*
    site*@*
    *site*@*
    *@site.ru
    *@*site.ru
    *@site*.ru
    *@*site*.ru

    где * - любые символы.
     
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Вставить в шаблон вывода (ctrl+2) следующую конструкцию:
    Код:
    [STRINGSFILTER][KEYS][FIRST_REPLACE(http://|{break}https://|{break}{get}.|{get})]<CD_DOCURL!>[/FIRST_REPLACE][/KEYS][EXTRACTEMAILS][DOCSOURCE][/EXTRACTEMAILS][/STRINGSFILTER]
    С уважением к вам, Сергей...
     
  9. Vladyslav

    Vladyslav Member Пользователи

    Регистрация:
    20 фев 2015
    Сообщения:
    58
    Большое спасибо! И последний вопрос, а если мне необходимо вытащить иногда только первый подходящий email или разделить их каким-то определенным символом, к примеру &?
     
  10. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Пожалуйста.

    Парсить в CSV и потом уже после парсинга в редакторе CSV (соответствующая кнопка на панели инструментов главного окна программы) применять к столбцу с мейлами поск-замену для выборки только первого мейла и поиск-замену для смены разделителей.
     

Поделиться этой страницей