Парсинг выдачи поисковых сетей и последующий парсинг имэйлов

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем Kevin, 28 июн 2020.

  1. gans

    gans Well-Known Member Пользователи

    Регистрация:
    21 апр 2014
    Сообщения:
    309
    Зря вы так! Мне уже смешно! Основные моменты я набросал, а сложить вместе или нет - ваше дело, главное - чтобы вашей фантазии хватило! Моей было затрачено много часов и экспериментов! Я не говорю, что задача из лёгких! Да, в начале треда я переборщил по поводу того, что основная проблема - это хорошие прокси. Наверное, потому, что удалось решить большую часть других проблем.
     
    Последнее редактирование: 30 июн 2020
    kenny872012 нравится это.
  2. kenny872012

    kenny872012 Well-Known Member Пользователи

    Регистрация:
    18 фев 2018
    Сообщения:
    312
    Красавчик! Winner! Мозг!
     
  3. gans

    gans Well-Known Member Пользователи

    Регистрация:
    21 апр 2014
    Сообщения:
    309
    Дабы не быть голословным, объясню, почему, как предлагали до этого, парсинг имейлов на страницах сайта по приоритетам - неверно. Попробуйте, и, вы найдете кучу левых имейлов типа fontsize14@lg.x, isotope-layout@3.0, react-dom@16.0.0. По логике, приведенной выше, программа, найдя емыл, должна остановиться и перейти к поиску имейлов на следующем сайте. Подчеркну, это - не проблема CD. Так делает и другой софт! Можно было бы попробовать уговорить Сергея сделать проверку синтаксиса. :) Врятли нужно. Решило бы это проблему? Только частично. Всё-равно будут попадаться вроде ivanivanov@domain.com, email@naprimer.ru, yourname@company.com, you@example.com, mail@companyname.com, you@youremail.com и т.д. Это лишь маленький пример из реальной жизни. Скажу сразу - пытаться создать некий черный список левый емылов - бесполезно! Проблему может решить парсинг всех емылов с главной страницы и страниц контактов с последующей верификацией и удалением ненужного.
     
    Последнее редактирование: 30 июн 2020
  4. kenny872012

    kenny872012 Well-Known Member Пользователи

    Регистрация:
    18 фев 2018
    Сообщения:
    312
    Эту проблему решает макрос filterstrings в поиск замене. Например, keep оставив только доменные зоны: .ru,.su,.net,.com и т.д. И это не проблема cd, программа не должна все проблемы решать за вас.
     
    gans нравится это.
  5. gans

    gans Well-Known Member Пользователи

    Регистрация:
    21 апр 2014
    Сообщения:
    309
    Встречался, email@naprimer.ru. Реальная ситуация. На многих контактных страницах сайтов есть формы, где написано: введите свой email, например, email@naprimer.ru, yourname@company.com, you@example.com, mail@companyname.com и т.д. Хотя здесь согласен, filterstrings может помочь.

    Я к чему - мне кажется, что задача должна быть не только спарсить количество, а ещё получить качество.
     
  6. kenny872012

    kenny872012 Well-Known Member Пользователи

    Регистрация:
    18 фев 2018
    Сообщения:
    312
    filterstrings
     
  7. gans

    gans Well-Known Member Пользователи

    Регистрация:
    21 апр 2014
    Сообщения:
    309
    Если не сарказм, то не совсем так. Сделал нечто похожее под свои нужды. Кривенько, с косяками, а исправлять и нужды-то особой нет. Работает и ладно. Главное - я получаю нужный результат!
     
    Последнее редактирование: 30 июн 2020
  8. kenny872012

    kenny872012 Well-Known Member Пользователи

    Регистрация:
    18 фев 2018
    Сообщения:
    312
    А еще чтобы на валидность email адреса проверялись можно написать код. Возможностей огромное количество, главное фантазия как сказал http://forum.sbfactory.ru/members/fjodor.2460/
     
  9. gans

    gans Well-Known Member Пользователи

    Регистрация:
    21 апр 2014
    Сообщения:
    309
    Не спорю. Можно. Даже нужно! Я лишь описал проблемы из собственного опыта. Надеюсь, кому-то будет полезно и сэкономит драгоценное время.

    Странно, что Kreol молчит! А ведь когда-то мы обсуждали нечто похожее. ;)
     
    Последнее редактирование: 30 июн 2020
  10. Фёдор

    Фёдор Active Member Пользователи

    Регистрация:
    9 фев 2014
    Сообщения:
    167
    Я не понимаю. Вы меня сейчас пытаетесь уговорить на основе этого шаблона, сделать заказчику проект за 500 р, а не за 40 тыс., что ли?)
    Цену я понижать не планирую. Но наверное найдутся желающие на кворке, это сделать)
     
  11. gans

    gans Well-Known Member Пользователи

    Регистрация:
    21 апр 2014
    Сообщения:
    309
    Конечно же, нет. Обсуждаем. Вполне возможно, цена обоснована. Вопрос вашего ценообразования - исключительно ваше дело!
     
  12. Фёдор

    Фёдор Active Member Пользователи

    Регистрация:
    9 фев 2014
    Сообщения:
    167
    Именно.
     
  13. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    867
    Это все - хорошо, на две страницы написали.
    Только вот ТС чего-то молчит ))
     
  14. Reset

    Reset Active Member Пользователи

    Регистрация:
    16 дек 2013
    Сообщения:
    114
    Я делал такой сервис для компании в которой работаю, и скажу что с ценообразованием тут все норм, но не знаю стоит ли мучать CD по этому поводу.
     
  15. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Ссылки недоступны для гостей
     
    gans, kagorec, kadishev1997 и ещё 1-му нравится это.
  16. Фёдор

    Фёдор Active Member Пользователи

    Регистрация:
    9 фев 2014
    Сообщения:
    167
    Круто!
    Теперь под такие задачи, разработки производить будет намного проще)
    Спасибо!
     
    Root нравится это.

Поделиться этой страницей