Как парсить email с сайтов?

Тема в разделе "Разное", создана пользователем andreus, 21 июл 2013.

  1. andreus

    andreus New Member Пользователи

    Регистрация:
    21 июл 2013
    Сообщения:
    3
    Имеем:
    список url разных сайтов
    Задача:
    спарсить email с них
    Условия:
    Чётких границ нет.
    Ориентир только знак @ (собачка)

    Знатоки, подскажите плиз!
     
    Последнее редактирование: 21 июл 2013
  2. nikolas1612

    nikolas1612 Member Пользователи

    Регистрация:
    27 ноя 2011
    Сообщения:
    439
    [EXTRACTEMAILS][DOCSOURCE][/EXTRACTEMAILS]
    ??
     
  3. andreus

    andreus New Member Пользователи

    Регистрация:
    21 июл 2013
    Сообщения:
    3
    Спасибо!
     
  4. andreus

    andreus New Member Пользователи

    Регистрация:
    21 июл 2013
    Сообщения:
    3
    Эта функция не очень правильно парсит.

    Эта функция не очень правильно парсит.
    Очень мало парсит. А если делать первую границу mailto: , а вот второй границы чёткой нет, (" ; . > < # и т.д)
    Поэто получается много грязи.
    А как самому написать условия?
    Например берём [DOCSOURCE]
    находим @
    берём все символы слева от @, до первого символа !""№;;%:?*
    и справа от @ от . (точки) + два символа справа от точки
    А есть возможность, редактировать встроенные шаблоны?
     
    Последнее редактирование: 24 июл 2013
  5. nikolas1612

    nikolas1612 Member Пользователи

    Регистрация:
    27 ноя 2011
    Сообщения:
    439
    вот одна из техник по обходу этой функции -

    1. подберите нормальную регулярку в инете для корректного выделения е-мейлов в коде. одна где-то тут, кстати, валялась, то ли в справке по RegEx, то ли в теме "регулярные выражения"
    2. в окошке поиск-замена основного кода - используем эту регулярку для того чтобы поместить все е-мейлы в коде в свой собственный тег, к примеру <!!>......</!!>
    3. дальше парсим обычным порядком - повторяющаяся граница по этому тегу.
     
  6. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.432
    Адрес:
    Latvia
    EXTRACTEMAILS если сравнивать с вариантом выпарсивания по регулярному выражению то предпочтение макросом, поскольку наиболее корректно и чисто выпарсиваются майлы.
     
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Функция должна работать очень чисто и корректно! Если у вас есть адрес web-страницы, где функция работает некорректно, прошу выслать ее мне на почту sbfroot@gmail.com и я приму меры по доработке функции (если потребуется).
    Спасибо!
     
  8. alexabux

    alexabux New Member Пользователи

    Регистрация:
    13 июл 2013
    Сообщения:
    6
    Для чайника можно пошагово помочь как парсить мыло с сайтов:
    avito.ru
    slando.ru
    Ссылки недоступны для гостей

    Туплю по страшной силе, не выходит Емаил Хантер очень ограничен и эти сайты не может взять, а CD настраиваемый и может все, но туплю и не могу запустить.
    [​IMG]
     
  9. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.432
    Адрес:
    Latvia
    на этих досках обьявлений нету майлов в открытом виде, форма отправки писем проходит внутри сайта.
     
  10. alexabux

    alexabux New Member Пользователи

    Регистрация:
    13 июл 2013
    Сообщения:
    6
    А другие сайты как?
    Не могу найти заветную кнопочку.
    Ведь такая функция есть?
     
  11. Benjamin Coleman

    Benjamin Coleman New Member Пользователи

    Регистрация:
    23 окт 2010
    Сообщения:
    152
    Вам же написали выше:

     
  12. ramires

    ramires New Member Пользователи

    Регистрация:
    15 дек 2013
    Сообщения:
    3
    ANSI 2 email

    А как вот такой имейл спарсить:
    &#118-&#101-&#99-&#116-&#114-&#97-&#50-&#57-&#64-&#121-&#97-&#110-&#100-&#101-&#120-&#46-&#114-&#117-

    символы переведены в ANSI как в обычный текст преобразовать ?

    [EXTRACTEMAILS][DOCSOURCE][/EXTRACTEMAILS] не помогает
     
  13. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.
    Предварительно заменить макросом поиск-замены (FIRST_REPLACE) все символы на буквы.
     
  14. ramires

    ramires New Member Пользователи

    Регистрация:
    15 дек 2013
    Сообщения:
    3
    спасибо все получилось

    для ленивых вот готовая замена:
    a|a
    b|b
    c|c
    d|d
    e|e
    f|f
    g|g
    h|h
    i|i
    j|j
    k|k
    l|l
    m|m
    n|n
    o|o
    p|p
    q|q
    r|r
    s|s
    t|t
    u|u
    v|v
    w|w
    x|x
    y|y
    z|z
    1|1
    2|2
    3|3
    4|4
    5|5
    6|6
    7|7
    8|8
    9|9
    0|0
    .|.
    -|-
    @|@
    ;|
    A|a
    B|b
    C|c
    D|d
    E|e
    F|f
    G|g
    H|h
    I|i
    J|j
    K|k
    L|l
    M|m
    N|n
    O|o
    P|p
    Q|q
    R|r
    S|s
    T|t
    U|u
    V|v
    W|w
    X|x
    Y|y
    Z|z
    &quot|"
    $|$
    |
    _|_
     
    Последнее редактирование: 15 дек 2013
  15. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.432
    Адрес:
    Latvia
  16. Vvita77

    Vvita77 New Member Пользователи

    Регистрация:
    11 апр 2015
    Сообщения:
    2
    у кого есть форма парсинга с сайтов пришлите пожалуйста...
     
  17. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    [EXTRACTEMAILS][DOCSOURCE][/EXTRACTEMAILS]
     
  18. Dmitry80

    Dmitry80 New Member Пользователи

    Регистрация:
    10 май 2015
    Сообщения:
    2
    Выслал вопрос на почту поддержки, жду помощь !
     
  19. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Дмитрий, пожалуйста, задавайте вопросы по функционалу программы на форуме (создайте тему с вашим вопросом в соответствующем разделе).

    Спасибо!
     
  20. Dmitry80

    Dmitry80 New Member Пользователи

    Регистрация:
    10 май 2015
    Сообщения:
    2
    Добрый день.
    Я выслал вам вчера (10.05.15) вопрос на емейл (sbfroot@gmail.com) с полным описанием проблемы.
    Возможно - мой вопрос не стоит внимания всего форума по причине моей "новичковости" в проге.

    Вы не будете отвечать на мой вопрос почтой ?

    Спасибо,
    Дмитрий
     

Поделиться этой страницей