Поиск email адресов со ссылок, найденных по перечисленным анкорам (контакты, связаться с нами...)

Тема в разделе "Разное", создана пользователем kenny872012, 18 мар 2018.

  1. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.429
    Адрес:
    Latvia
    Код:
    [IFNIL2][FIRST_REPLACE(://{get}/|{get})]<CD_DOCURL!>[/FIRST_REPLACE][ELSE]<CD_DOCURL!>[/IFNIL2]
     
  2. Serheo

    Serheo Well-Known Member Пользователи

    Регистрация:
    13 окт 2018
    Сообщения:
    251
    Город:
    Москва
    Еще вопрос. Удалось вывести результат: Колонка 1 - Ссылки недоступны для гостей бла бла/бла бла|Колонка 2 - мыло_1 мыло_2 мыло_3.

    Надо получить результат:
    Строка 1: Колонка 1 - сайт.ru|Колонка 2 - мыло_1;
    Строка 2: Колонка 1 - сайт.ru|Колонка 2 - мыло_2
    Строка 3: Колонка 1 - сайт.ru|Колонка 2 - мыло_3

    Вопрос как это сделать?
     
  3. Serheo

    Serheo Well-Known Member Пользователи

    Регистрация:
    13 окт 2018
    Сообщения:
    251
    Город:
    Москва
    Спасибо! С поиском/заменой у меня вообще все гладко, но это что касается контента, а вот как его в шаблон вывода вкрячить не додумался. Еще раз спасибо!

    Правда Вы меня опередили. Я снес тот пост, на который Вы ответили, чтобы объединить его с другим. Т.е. тот вопрос, на который Вы ответили - это только 1-я часть Марлизонского балета. Там это еще надо по строчкам разнести так, как я описал постом выше.

    Когда мне надо такое провернуть с контентом, то я загоняю все в повторяющиеся границы. А как тут быть?
     
    Последнее редактирование: 10 фев 2019
  4. Serheo

    Serheo Well-Known Member Пользователи

    Регистрация:
    13 окт 2018
    Сообщения:
    251
    Город:
    Москва
    Сам спросил - сам ответил. Простой и удобный EXTRACTEMAILS тут оказался бессилен. Пришлось регуляркой искать email-ы и через повторяющуюся границу вывести их в csv как требуется. Хотя, если бы EXTRACTEMAILS смог бы решить задачу, то это в разы было бы проще и удобнее. Например, чтобы он результаты выдавал построчно и его можно было бы вставить в повторяющиеся границы.
     
  5. Serheo

    Serheo Well-Known Member Пользователи

    Регистрация:
    13 окт 2018
    Сообщения:
    251
    Город:
    Москва
    Идея хорошая, но на все 100% не работает. Там встречаются ссылки как с ://сайт.ру/блабла/, так и просто сайт.ру/блабла. Соответственно выцыпить ://{get}/|{get} нужный текст получается только в первом случае. Вот если бы можно было транслировать значение <CD_DOCURL!> в какую-нибудь границу и применить туда несколько правил поиска/замены, тогда без проблем ловились бы все возможные варианты.

    PS Не знаю есть ли лучше решение, но вместо ://{get}/|{get} оказывается можно регулярку вставить. Правую часть от точки с помощью нее легко взять. Насчет левой пока не знаю.
     
    Последнее редактирование: 11 фев 2019
  6. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.429
    Адрес:
    Latvia
    Код:
    {skip}://|
    re:/.*$|
    Стопроцентный вариант.)
     
  7. Serheo

    Serheo Well-Known Member Пользователи

    Регистрация:
    13 окт 2018
    Сообщения:
    251
    Город:
    Москва
    В 2 строки я и без регулярок урлы skip-ами обгрызу. Там еще и регистр понизить надо. Вот как этот весь букет в FIRST_REPLACE передать не понятно однако. Email-ы и так уже из кода регуляркой вытащил вместо EXTRACTEMAILS, чтобы по строкам разнести. Теперь чую и урлы надо из кода вытаскивать, т.к. к CD_DOCURL! нельзя применить поиск замену в полной мере.

    Хотя было бы круто, если бы к EXTRACTEMAILS, CD_DOCURL! и другим подобным макросам можно было бы применить поиск/замену так же гибко, как к границам кода. Может как-то транслировать выдачу этих макросов в границы, и там уже эту выдачу форматировать.
     
  8. Serheo

    Serheo Well-Known Member Пользователи

    Регистрация:
    13 окт 2018
    Сообщения:
    251
    Город:
    Москва
    Подниму тему, т.к. вопрос продолжает быть актуальным.

    Из строки: Колонка 1 - Ссылки недоступны для гостей бла бла/бла бла|Колонка 2 - email_1 email_2 email_3.

    Надо получить результат:
    Строка 1: Колонка 1 - сайт.ru|Колонка 2 - email_1;
    Строка 2: Колонка 1 - сайт.ru|Колонка 2 - email_2
    Строка 3: Колонка 1 - сайт.ru|Колонка 2 - email_3

    Причем в исходном варианте сайт.ru может быть как с Ссылки недоступны для гостей, так и с Ссылки недоступны для гостей, так и просто сайт.ru. Может быть с "хвостом" (/бла/бла.html или просто /бла/бла) или без него. Но получить надо всегда вид "сайт.зона" и без www. Email-ов также может быть произвольное количество.

    Очень много перепробовал вариантов, но решается все только частично.

    Вопрос как это сделать?
     
  9. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Макрос поиск-замены [REPLACE]
     
  10. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Готового решения для этого у меня сейчас нет.
     
  11. Serheo

    Serheo Well-Known Member Пользователи

    Регистрация:
    13 окт 2018
    Сообщения:
    251
    Город:
    Москва
    И все же я решил задачу. УРААА!!! Удалось таки использовать [CD_DOCURL!]. Оказывается в шаблоне вывода можно правила поиска/замены построчно использовать. Не знал.

    Email-ы беру регуляркой со всего кода страницы через повторяющуюся границу. [EXTRACTEMAILS] тут, увы, бесполезен. А очень жаль.
     
    Последнее редактирование: 12 фев 2019
    Root нравится это.

Поделиться этой страницей