Парсинг ПС

Тема в разделе "Разное", создана пользователем dimage, 21 дек 2011.

  1. dimage

    dimage New Member Пользователи

    Регистрация:
    26 ноя 2011
    Сообщения:
    7
    добрый день.

    Все сталкивались с проблемой парсинга выдачи ПС.
    пример : по запросу "ххх" - 15000 страниц с точным соотвествием

    но ПС выводит макимум 1000 результатов , а на практике ~450
    подскажите наработанные уловки , с помощью которых можно получить результат близкий в 15к.

    от себя могу добавить "ххх site:ru" , где ru - доменная зона поиска
     
  2. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.442
    Адрес:
    Latvia
    больше рабочих прокси и юзер агентов - ставим 10 потоков без паузы (должно сработать)
     
  3. Benjamin Coleman

    Benjamin Coleman New Member Пользователи

    Регистрация:
    23 окт 2010
    Сообщения:
    152
    Чтобы выпарсить больше результатов из ПС нужно использовать слова-подстановки.

    После непродолжительного парсинга google с операторами будет капча.

    Вообще, на данном этапе CD не совсем предназначен для масштабного парсинга - нужно много, очень много проксей (от 1,5-2 тысяч) - с регулярным обновлением и чеков списка.

    Но если собрать список статей по ключевику - то идеален! :)
     
    Последнее редактирование: 26 дек 2011
  4. dimage

    dimage New Member Пользователи

    Регистрация:
    26 ноя 2011
    Сообщения:
    7
    хотелось бы парсить ссылки на сайты реализованные на определённой cms.
    но как описано выше есть ограничение на количество страниц в выдачи , как это бороть?
     
    Последнее редактирование: 30 дек 2011

Поделиться этой страницей