Как парсить имейлы с сайта

Тема в разделе "Решение различных задач по парсингу", создана пользователем Maximus71, 22 июл 2017.

Метки:
  1. Maximus71

    Maximus71 New Member Пользователи

    Регистрация:
    22 июл 2017
    Сообщения:
    11
    Город:
    Москва
    Только начинаю осваивать программу и не могу разобраться как парсить E-mail адреса со страниц у которых URL не ЧПУ. К примеру раздел сайта Ссылки недоступны для гостей , из определенной категории, к примеру:
    Ссылки недоступны для гостей
    нужно собрать почту которая находится на странице контактов с URL типа:
    Ссылки недоступны для гостей

    Вопрос в следующем, как настроить фильтр ссылок в сканере сайтов для извлечения почты с подобных страниц?
    Буду благодарен за помощь.
     
    Последнее редактирование: 22 июл 2017
  2. Japonec

    Japonec Well-Known Member Пользователи

    Регистрация:
    19 июл 2015
    Сообщения:
    92
    Адрес:
    Kiev
    Ссылки недоступны для гостей
     
    Root нравится это.
  3. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    1) Собрать сканером ссылки на нужные страницы сайта Ссылки недоступны для гостей
    2) Как и сказали выше, взять с собранных WEB-страниц имейл адреса Ссылки недоступны для гостей
     
  4. Maximus71

    Maximus71 New Member Пользователи

    Регистрация:
    22 июл 2017
    Сообщения:
    11
    Город:
    Москва
    Парсер собирает не все E-mail адреса.

    Собраны ссылки на страницы контактов, но извлекая E-mail адреса парсер значительную часть страниц пропускает (примерно 50%). Извлекать E-mail пробовал двумя способами

    1. Макрос EXTRACTEMAILS
    2. Указывал границы парсинга

    И в первом и во втором случае была пропущена значительная часть E-mail адресов. Ссылки на страницы контактов в списке для парсинга есть все, но почта собирается не с каждой.
    В чем может быть причина? Как сделать так, чтобы адреса собирались со всех страниц?
     
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Пальцами по воде водите. Назовите адреса конкретных страниц, с которых не собираются имейлы.
     
  6. Maximus71

    Maximus71 New Member Пользователи

    Регистрация:
    22 июл 2017
    Сообщения:
    11
    Город:
    Москва
    Сайт: Ссылки недоступны для гостей
    категория для сбора адресов: Гостиницы, отели в Москве - Ссылки недоступны для гостей
    Парсер нашел 2303 ссылок на страницы с контактами, с которых в дальнейшем и собирались адреса. При парсинге всего списка нашлось около 450 емейлов.

    Для примера пропущенных E-mail. Страница
    Ссылки недоступны для гостей

    была в общем списке, но почта с неё собрана не была. Но, когда я отдельно пропарсил эту страницу, почта спарсилась.
    Я попробовал разбить общий список с 2303 ссылками на более мелкие и парсил по 500 адресов, результат был чуть лучше. Всего, в общей сложности собралось 899 емейлов, но некоторые так и остались не собранные. Все таже

    Ссылки недоступны для гостей
    или
    Ссылки недоступны для гостей

    Получается, для более качественного сбора нужно несколько раз парсить один и тот же список ссылок?
     
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Нужно понимать, что некоторые сайты "отвергают" частые запросы. Поставьте 1 поток и таких проблем быть не должно.
     
  8. Japonec

    Japonec Well-Known Member Пользователи

    Регистрация:
    19 июл 2015
    Сообщения:
    92
    Адрес:
    Kiev
    И про паузу не забывайте. Так же сталкивался с такими донорами, которые 1-2 потока тольк выдерживают, и когда парсишь 350к ссылок 2 суток, а потом с них же ещё сутки емейлы. Без паузы сайт может отдавать эроры либо заблокировать доступ с вашего ип.
     
  9. Maximus71

    Maximus71 New Member Пользователи

    Регистрация:
    22 июл 2017
    Сообщения:
    11
    Город:
    Москва
    Спасибо за информацию!
     
  10. Maximus71

    Maximus71 New Member Пользователи

    Регистрация:
    22 июл 2017
    Сообщения:
    11
    Город:
    Москва
    Так и не смог разобраться как спарсить емейлы с определенной рубрики сайта Ссылки недоступны для гостей

    В постах ранее мне посоветовали собрать сканером ссылки на нужные страницы сайта,
    а затем извлечь из них адреса. Вопрос в том, как собрать ссылки на страницы с контактами, если URL страницы контактов не имеет в своем составе какой либо константы по которой можно было бы настроить фильтр ссылок?
    Ссылки недоступны для гостей
     
  11. gans

    gans Well-Known Member Пользователи

    Регистрация:
    21 апр 2014
    Сообщения:
    309
    Добрый день!

    Данные на этом сайте берутся с 2гис. Может, лучше попробовать спарсить с него?
     
  12. Maximus71

    Maximus71 New Member Пользователи

    Регистрация:
    22 июл 2017
    Сообщения:
    11
    Город:
    Москва
    Спасибо за идею. Но у 2Гис ссылки тоже не содержат названия рубрик и категорий. Как в этом случае отфильтровывать страницы с контактами?
     
  13. gans

    gans Well-Known Member Пользователи

    Регистрация:
    21 апр 2014
    Сообщения:
    309
    Ссылки не содержат. А код страницы организации содержит(потом можно отфильтровать лишнее). Ссылки на предприятия собрать несложно. Например,
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    .
     
  14. Maximus71

    Maximus71 New Member Пользователи

    Регистрация:
    22 июл 2017
    Сообщения:
    11
    Город:
    Москва
    Да, в адресной строке есть слово "кафе", но когда эту ссылку копируешь и вставляешь в сканер сайтов она преобразуется в вид: Ссылки недоступны для гостей

    Ссылка на страничку компании:
    Ссылки недоступны для гостей

    Везде, вместо названий код. Как в этом случае фильтровать?
     
  15. Maximus71

    Maximus71 New Member Пользователи

    Регистрация:
    22 июл 2017
    Сообщения:
    11
    Город:
    Москва
    Здесь ссылки имеют слово "кафе". Когда вставляю их в сканер сайта, слово кафе меняется на код.
     
  16. gans

    gans Well-Known Member Пользователи

    Регистрация:
    21 апр 2014
    Сообщения:
    309
    Так и должно быть
     
  17. Maximus71

    Maximus71 New Member Пользователи

    Регистрация:
    22 июл 2017
    Сообщения:
    11
    Город:
    Москва
    А как в этом случае фильтровать? Если слово "кафе" я вставить в фильтр не могу.
     
  18. gans

    gans Well-Known Member Пользователи

    Регистрация:
    21 апр 2014
    Сообщения:
    309

    Вложения:

    Root нравится это.
  19. Maximus71

    Maximus71 New Member Пользователи

    Регистрация:
    22 июл 2017
    Сообщения:
    11
    Город:
    Москва
    Спасибо!
     
    Root нравится это.
  20. Maximus71

    Maximus71 New Member Пользователи

    Регистрация:
    22 июл 2017
    Сообщения:
    11
    Город:
    Москва
    Здравствуйте. Пытаюсь собрать адреса с страниц типа Ссылки недоступны для гостей
    Для чего в парсере создал список ссылок с переменным числом в конце адреса от 1 до 27 (всего 27 страниц).
    Задал границы парсинга -
    начало: "value email">
    окончание: </span>

    Запускаю парсинг, но программа собирает только первые адреса со страниц. Как сделать так, чтобы парсились все meil со страницы?
     

Поделиться этой страницей