Парсинг Google

Тема в разделе "Решение различных задач по парсингу", создана пользователем Vestmar, 22 мар 2014.

  1. Vestmar

    Vestmar New Member Пользователи

    Регистрация:
    22 мар 2014
    Сообщения:
    21
    Добрый день, у меня есть список 5000 доменов которых нужно проверить на наличие (и кол-во) ключевого слова в страницах сайта, через операторы гугла
    К примеру:
    Ссылки недоступны для гостейsity.com+%22keyword%22&rls

    и не могу задать границы парсинга потому что CD не отображает код, вот такая ошибка:

    Не удалось загрузить код страницы!

    Возможные причины:
    - Программа не может получить доступ в сеть интернет;
    - Была выбрана невалидная ссылка;
    - Из-за частых запросов сайт заблокировал программу.

    Подскажите пожалуйста как сделать. Заранее благодарен.
     
  2. СТЕПАН

    СТЕПАН New Member Супер Модератор

    Регистрация:
    10 мар 2013
    Сообщения:
    51
    Адрес:
    Казахстан
    Должно помочь решить проблему

    [​IMG]
     
  3. Vestmar

    Vestmar New Member Пользователи

    Регистрация:
    22 мар 2014
    Сообщения:
    21
    А ларчик просто открывался (С) СПАСИБО! работает, а user agent можно использовать один, который по умолчанию Mozilla/5.0 для такой миссии)?
     
  4. Vestmar

    Vestmar New Member Пользователи

    Регистрация:
    22 мар 2014
    Сообщения:
    21
    Ещё дополнение, прошерстил 60 сайтов и теперь гугла просит ввести капчу в том окне которое высвечивается перед открытием кода страницы. VPN поменял, прокси использую, user agentОВ все выбрал, он банит (палит) по какому то алгоритму программы CD ?
     
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Непонятно, как он палит =). Ставьте 1 поток и подбирайте паузу, чтобы не банил, например 3000-6000 (мс).
     
  6. Vestmar

    Vestmar New Member Пользователи

    Регистрация:
    22 мар 2014
    Сообщения:
    21
    Попробую ночью) вроде как гугла меня простил, а то проверять 5000 доменов, Товарищи! Наведите на мысль пожалуйста) я не так давно в СЕО суть такая, есть сайт httpЖ//xseo.in/indexed там можно проверять аж 3 показателя индекса, например httpЖ//whoer.net/ простой! запрос по домену в URL выглядит так httpЖ//whoer.net/check?host=siteproverka.com не сложно регуляркой сделать такой список, а ТУТ httpЖ//xseo.in/indexed всё по-другому, как может выглядеть URL запрос php или js типо httpЖ//xseo.in/indexed+*?=+chek+siteproverka.com= что бы скрипт вставлял домен в <input

    Извините за глупые вопросы)
     
    Последнее редактирование: 22 мар 2014
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.
    Для подгрузки данных с httpЖ//xseo.in/indexed+*?=+chek+siteproverka.com= используйте этот макрос Ссылки недоступны для гостей
     
  8. Jeka_M

    Jeka_M New Member Пользователи

    Регистрация:
    25 апр 2014
    Сообщения:
    15
    Добрый день. Необходимо парсить Google Adwords и Google Analytics, но не получается этого сделать, даже в кабинет не получается попасть.
     
  9. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Добрый день.
    Будьте добры изучить урок по авторизации Ссылки недоступны для гостей
    GAnalitics врядле выйдет парсить, слишком там много данных контент подвисает и делает почти невозможным работу с настройками границ. Во всяком случае так было у меня.
     
  10. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Не слушайте сейчас господина Kreol =), парсить эти сайты реально!

    Думаю, для парсинга подобных ресурсов нужно использовать движок Internet Explorer (DOM). Включается в настройках HTTP-запросов (ctrl+h).
    Попробуйте...
    Если вы выбрали этот движок для парсинга, то, чтобы в нем авторизоваться, нажмите кнопку "авторизация..." (кнопка 16*16 с изображением ключика) во вкладке "контент" - группа "загрузка WEB-документа". Просто авторизуйтесь в том браузере, который откроется при нажатии на вышеуказанную кнопку...
     
  11. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    :tongueout: Я и не говорил что нереально. Я сказал что у меня не вышло, ибо он очень объемный по содержанию.
     
  12. Jeka_M

    Jeka_M New Member Пользователи

    Регистрация:
    25 апр 2014
    Сообщения:
    15
    Да я в курсе, так и делаю, но дальше дело не движется. Куки передал, а непосредственно аккаунт не подгружается.
     
  13. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Запустите WBApp (ctrl+w), авторизуйтесь там. Все подгружается и все работает, только что проверял!
    Версия программы у вас какая? (Меню - справка - о программе)
     
  14. Jeka_M

    Jeka_M New Member Пользователи

    Регистрация:
    25 апр 2014
    Сообщения:
    15
    Версия программы последняя 10,99
    После авторизации кидает на справку, скрин тут - Ссылки недоступны для гостей

    А должно кидать в адвордс. Ссылка вверху адвордс, а сама страница справки.
    Я так понимаю не хочет заходить, т.к. не поддерживаемый браузер.
    При нажатии на AdWord все равно оставляет на справке.
     
    Последнее редактирование: 28 апр 2014
  15. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    У меня прекрасно работает и заходит.
    Система должна быть Windows 7 с установленным в ней Internet Explorer 11. Если у вас проблемы с этим, перенесите программу на другой ПК (просто активируйте на другом ПК обычным способом).
     
  16. Jeka_M

    Jeka_M New Member Пользователи

    Регистрация:
    25 апр 2014
    Сообщения:
    15
    Тоже IE 11 и 7 стоит
     
  17. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Тогда могу порекомендовать только попробовать работать на другом ПК.
    PS: После открытия какой именно ссылки у вас происходит редирект на справку?
     
  18. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    В таком случае, запишите лучше видео. Может что-то прояснится.
     
  19. Jeka_M

    Jeka_M New Member Пользователи

    Регистрация:
    25 апр 2014
    Сообщения:
    15
    Чудеса. Хотел записать видео и авторизация прошла нормально.
     
  20. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Может просто обновили программу и стало хорошо =)))
     

Поделиться этой страницей