Парсинг e-mail c сайта Госзакупок

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем Джо, 20 май 2018.

  1. Джо

    Джо New Member Пользователи

    Регистрация:
    20 дек 2015
    Сообщения:
    10
    Город:
    Курск
    Здравствуйте

    Кто может подсказать, как правильно организовать сбор e-mail с Ссылки недоступны для гостей по следующему алгоритму: 1) В строке поиска вводим ключевую фразу или слово, 2) В списке полученных лотов поочередно входим в раздел "Сведения" и в блоке "Контактное лицо" берем и сохраняем е-mail из строки "Электронная почта" ? Варианты с помощью за вознаграждение также рассмотрю.
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

     
    napserious нравится это.
  3. Джо

    Джо New Member Пользователи

    Регистрация:
    20 дек 2015
    Сообщения:
    10
    Город:
    Курск
    Большущее Вам спасибо за оперативность, отзывчивость и настолько развернутый ответ-видеоурок! Надеюсь, получится его освоить
     
  4. Джо

    Джо New Member Пользователи

    Регистрация:
    20 дек 2015
    Сообщения:
    10
    Город:
    Курск
    Все получилось. Единственный момент, с программой только начинаю работать, так и не понял, как сделать так, чтобы видеть искомые данные (телефоны, емайлы и т.д.)со всех спаршенных ссылок в одном общем массиве. Сейчас могу видеть только после двойного клика по каждой отдельной ссылке в режиме просмотра.

    Для тех, кто будет парсить этот же ресурс. Вне зависимости от настроек, ставил даже 2 потока, 5000-10000 задержку, довольно быстро наступит бан по IP - сайт начнет отвечать Forbidden 403 . IP-улетает в бан примерно на 1- 2 часа. Пробовал с прокси - бан наступает раньше, чем успел все выпарсить даже со списком валидных в несколько сотен, которые просто успевают все закончиться-перебаниться или стать нерабочими в процессе парсинга. Нужны, как минимум, на порядок более объемные списки прокси. Пробовал менять IP, парся через 4G-модем, получая новый IP через определенный промежуток времени. Сначала все шло весело. Потом парсинг неизменно приходил в ступор, замедляясь до полного 0, при этом через браузер бана не наблюдается, сайт доступен. Пока не разобрался почему так.

    И вопрос по xEvil : он на 80-м порту отдает капчу? При парсинге данного ресурса не увидел ни одной капчи. Либо ее там нет, либо нужны какие-то специфические настройки под xEvil
     

Поделиться этой страницей