Парсинг поисковой выдачи Google, Yandex по ключевым словам

Тема в разделе "Общее", создана пользователем timur777, 15 фев 2020.

  1. timur777

    timur777 Member Пользователи

    Регистрация:
    24 дек 2019
    Сообщения:
    118
    Город:
    Москва
    Здравствуйте. Отлично и более удобно стало искать информацию по работе CD после обновления юзабилити вашего сайта системы помощи. Ссылки недоступны для гостей Лайк)
    У меня такой вопрос: Есть список ключевых запросов по которым необходимо спарсить первую страницу выдачи поиска Google или Yandex на предмет ссылок на статьи. Есть сайты с которых необходимо спарсить весь контент и структурировать в отдельные документы конкретного сайта. Подскажите какую конкретно учить информацию? Благодарю!
     
  2. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    Начните с "Ссылки недоступны для гостей"
     
  3. Reset

    Reset Active Member Пользователи

    Регистрация:
    16 дек 2013
    Сообщения:
    114
    CD для этого подходит весьма условно, т.к. замучаетесь обходить капчу.
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Насколько я знаю, Google и Яндекс без проблем парсятся через анонимные прокси.
     
  5. Reset

    Reset Active Member Пользователи

    Регистрация:
    16 дек 2013
    Сообщения:
    114
    Но весьма недолго :) 5-10 запросов и здравствуй капча, т.е. чтоб прокси успевал "остыть" их нужно много - а это недешево. Вот относительно недоровгой вариант
    Ссылки недоступны для гостей
     
  6. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    На днях Яндекс выдачу парсил (110000 разных запросов) , хватило 7000 проксей, тип socks5. По признаку каптчи - прокси удалялась из списка. Через пару часов список проксей заново добавлялся.
     
  7. kenny872012

    kenny872012 Well-Known Member Пользователи

    Регистрация:
    18 фев 2018
    Сообщения:
    313
    Используйте мобильные прокси для парсинга таких сайтов, они меняют свой внешний ip адрес по этому не могут быть заблокированы. Мне хватало пары штук таких чтобы распарсить сайт на 12млн. организаций, где через каждые 20 запросов встречается капча.
     
  8. Reset

    Reset Active Member Пользователи

    Регистрация:
    16 дек 2013
    Сообщения:
    114
    Я думаю 7000 соксов это явно не паблик, ну и мобильные прокси тоже на дороге не валяются, только переключение IP в моем случае занимало секунд 10 и Пром я парсил довольно долго в 1 поток.
     
  9. kenny872012

    kenny872012 Well-Known Member Пользователи

    Регистрация:
    18 фев 2018
    Сообщения:
    313
    А зачем в один поток?! Закидываете пару мобильных прокси, ставите повторную загрузку документов, количество попыток побольше, 50 потоков и все ок.
     

Поделиться этой страницей