Поиск email адресов со ссылок, найденных по перечисленным анкорам (контакты, связаться с нами...)

Тема в разделе "Разное", создана пользователем kenny872012, 18 мар 2018.

  1. gans

    gans Well-Known Member Пользователи

    Регистрация:
    21 апр 2014
    Сообщения:
    309
    Спасибо! Попробую.
     
  2. Serheo

    Serheo Well-Known Member Пользователи

    Регистрация:
    13 окт 2018
    Сообщения:
    251
    Город:
    Москва
    Здравствуйте! Вот успешно раскурил данную тему. Спасибо форуму и здешним гуру!

    Но довольно часто встречается вот такое:
    "Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра."
    И естественно никакой емейл оттудова не парсится. Это можно как-то победить?
     
  3. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Ну ссылку привести не помешало бы)
    И чем именно снимаете емайлы? Emailextraktor или что-то другое?
     
  4. Serheo

    Serheo Well-Known Member Пользователи

    Регистрация:
    13 окт 2018
    Сообщения:
    251
    Город:
    Москва
    Емейлы достаю EXTRACTEMAILS. Практически как в этой теме расписано и с мизерными нюансами.

    Ссылка: Ссылки недоступны для гостей

    Не ожидал такой быстрой реакции. Пробовал искать что-то похожее в окошке справа вверху страницы, но не нашел. Но поиск в Яндексе привел сюда: Ссылки недоступны для гостей Еще не успел попробовать решение оттудова, но если сработает буду учиться пользоваться поиском по форуму.
     
  5. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.432
    Адрес:
    Latvia
    Ctrl+h включите обработку DOM для "контент", учтите что упадет скорость парсинга
     
  6. Serheo

    Serheo Well-Known Member Пользователи

    Регистрация:
    13 окт 2018
    Сообщения:
    251
    Город:
    Москва
    Действительно ларчик просто открывался. Спасибо! Хотя плакали мои 20 потоков. 2 бы как-то осилить. С другой стороны на большой скорости я все не защищенные емейлы собрал. Через DOM уже выжимки пошли. Хотя их тоже не мало.

    Обнаружил еще одну интересную защиту. Если бы случайно не увидел, то пропустил бы.
    В емейле был пробел после собаки: info@ домен.ru. EXTRACTEMAILS тоже этот мыл не отловил. Решилось удалением этого пробела через ctr+shift+r.

    Может в EXTRACTEMAILS вставить такую проверку?
     
  7. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    на самом деле там очень много разных есть фишек, и шифрование, и подмена и много много всего, иногда даже картинкой делают. Так что все все равно не удастся собрать)
    Решайте костыльными методами
     
  8. Serheo

    Serheo Well-Known Member Пользователи

    Регистрация:
    13 окт 2018
    Сообщения:
    251
    Город:
    Москва
    Что-то у меня мозг вскипел. Пытаюсь вот к этому:
    Код:
    [EXTRACTEMAILS][DOCSOURCE][/EXTRACTEMAILS]
    Подключить вот это:
    Код:
    [DUPIGNORE][KEY][/KEY][/DUPIGNORE]
    Логика подсказывает, что выглядеть должно так:
    Код:
    [DUPIGNORE][KEY][EXTRACTEMAILS][DOCSOURCE][/EXTRACTEMAILS][/KEY][EXTRACTEMAILS][DOCSOURCE][/EXTRACTEMAILS][/DUPIGNORE]
    Но в [KEY] сыпется не email, а весь код страниц как попало. В проекте фактически нет ни одной границы и без границ не соображу как это все настроить. Подскажите как правильно, пожалуйста.
    Весь код проекта выглядит так:
    Код:
    <CD_DOCURL!>
    [CSVCS]
    [EXTRACTEMAILS][DOCSOURCE][/EXTRACTEMAILS]
    [CSVCS]
    [CHECKENTRY2([ANYTEXT])][EXTRACTEMAILS][DOCSOURCE][/EXTRACTEMAILS]
    [THENTEXT][ELSETEXT]<CD_DOCURL!>[/CHECKENTRY2]
     
  9. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Что вы пытаетесь добиться данной конструкцией? Чтобы в результат не попадали одинаковые e-mail?
     
  10. Serheo

    Serheo Well-Known Member Пользователи

    Регистрация:
    13 окт 2018
    Сообщения:
    251
    Город:
    Москва
    Ну да. Конечно можно потом Экселем по ним пройтись. Но думал есть какая-то возможность заставить великий и могучий CD это сделать. Там все в CSV файл складывается и хотелось бы макрос заставить проверять определенную колонку. Но границ там вообще нет, поэтому не знаю что DUPIGNORE скормить в качестве ключа. Пробовал разные варианты, но не работает однако.

    Идеально это конечно через CSV сделать, т.к. наглядно. Но можно и в 2 txt файла результаты складывать: 1. Email; 2. Ссылки, которые не отдали email.
     
  11. Serheo

    Serheo Well-Known Member Пользователи

    Регистрация:
    13 окт 2018
    Сообщения:
    251
    Город:
    Москва
    Вообще, конечно, напрашивается макросу [EXTRACTEMAILS] параметр прикрутить на проверку дублей и чтобы он работал с данными, которые через себя пропускает. Как [DUPIGNORE] в общем. В том числе и с внешним файлом бы работал. Бомбическая была бы штука. В каком-то макросе я видел параметр удаления дублей. Вот в [EXTRACTEMAILS] это прям ну очень напрашивается. И телефонному макросу это тоже в тему будет.
     
  12. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Замените файл Content Downloader.exe (в папке с программой) этим файлом:
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 50 постов.**
     
    xLime нравится это.
  13. Serheo

    Serheo Well-Known Member Пользователи

    Регистрация:
    13 окт 2018
    Сообщения:
    251
    Город:
    Москва
    Вот спасибо! Немного задонатил. А можно ли сделать так, чтобы к EXTRACTEMAILS можно было файл подключать как к DUPIGNORE? И в EXTRACTPHONES хорошо бы тоже дубли отсеивать и из файла дубли искать.
     
  14. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Пожалуйста. И вас спасибо!

    Пока не планирую.
     
  15. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Замените файл Content Downloader.exe (в папке с программой) этим файлом:
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    Код:
    [REPLACE([LINEMODE]{get}|[DUPIGNORE2][KEY]{get}[/KEY][/DUPIGNORE2])]▒
    [EXTRACTEMAILS]123@12.ru,123@123.ru[/EXTRACTEMAILS]▒
    [/REPLACE]
    2019-02-04_06-35-43.png
     
    xLime нравится это.
  16. Serheo

    Serheo Well-Known Member Пользователи

    Регистрация:
    13 окт 2018
    Сообщения:
    251
    Город:
    Москва
    Сергей, спасибо! За мной не заржавеет. Не совсем понял код, но на тестах разберусь. Главное, если я правильно понял, через подключение файла с ключами к DUPIGNORE можно дубли email теперь и по файлу искать. И это очень полезно, т.к. лично я ищу мыла в 3 прогона. Сначала на главной, потом на внутряках и 3-й прогон делаю через WBA. И еще черный список email есть. Так что без чтения файла вообще никак.
     
    Root нравится это.
  17. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Пожалуйста.

    Вы уже заплатили.

    Связка макросов добавляет к каждому найденному e-mail [DUPIGNORE2]
     
  18. Serheo

    Serheo Well-Known Member Пользователи

    Регистрация:
    13 окт 2018
    Сообщения:
    251
    Город:
    Москва
    Все таки не выходит чаша у Данилы-Мастера. Весь код у моего проекта вот:
    Код:
    <CD_DOCURL!>[CSVCS][REPLACE([LINEMODE]{get}|[DUPIGNORE2][KEY]{get}[/KEY][/DUPIGNORE2])][EXTRACTEMAILS][DOCSOURCE][/EXTRACTEMAILS][/REPLACE][CSVCS]
    [CHECKENTRY2([ANYTEXT])][EXTRACTEMAILS][DOCSOURCE][/EXTRACTEMAILS]
    [THENTEXT][ELSETEXT]<CD_DOCURL!>[/CHECKENTRY2]
    1. 2-й столбец, по идее, должен выводить email-ы в CSV файл, а дубли скидывать в подключенный к DUPIGNORE файл TXT . Только в этот TXT сыпятся вообще все найденные email, что не совсем то, что надо. Конечно дубли отсекаются, но хотелось бы, чтобы файл шли только дубли.

    2. В 3-ю колонку должны попадать ссылки, по которым не найдены email. До этих правок все работало. После правок никак не получается засечь был email в переменной или нет. Точнее, даже, по логике, в EXTRACTEMAILS постоянно что-то присутствует и ELSETEXT не срабатывает.

    В общем, или программе есть ошибки и макросы не так как надо работают или я опять не прочитал где-то красные буквы.
     
  19. Serheo

    Serheo Well-Known Member Пользователи

    Регистрация:
    13 окт 2018
    Сообщения:
    251
    Город:
    Москва
    Сам спросил - сам ответил. Код чуть переделал. Загнал email в переменную и DUPIGNORE ее хавает. Получилось:
    Код:
    <CD_DOCURL!>[CSVCS][VARF][SET:mylo][EXTRACTEMAILS][DOCSOURCE][/EXTRACTEMAILS][/SET][/VARF][DUPIGNORE][KEY][VARF:mylo][/KEY][/DUPIGNORE][CSVCS][CHECKENTRY([ANYTEXT])][VARF:mylo][THENTEXT][ELSETEXT]<CD_DOCURL!>[/CHECKENTRY]
     
    Последнее редактирование: 10 фев 2019
  20. Serheo

    Serheo Well-Known Member Пользователи

    Регистрация:
    13 окт 2018
    Сообщения:
    251
    Город:
    Москва
    В результатах, которые парсил через WBA нашел кучу дублей. Настройки проекта не менял, за исключением только включения самого WBA. Пробовал тестировать. На тестах все вроде сработало адекватно. С чем это может быть связано?
     
    Последнее редактирование: 10 фев 2019

Поделиться этой страницей