Как парсить гугл|google кеш (ссылок)

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем klever2000, 30 мар 2012.

Метки:
  1. klever2000

    klever2000 New Member Пользователи

    Регистрация:
    9 апр 2011
    Сообщения:
    7
    Требуется спарсить первые 100 ссылок с гугл кеша по заданному списку сайтов

    кеш гугла это site:sbfactory.ru

    К примеру ввожу домены
    1)*
    2)*

    получаю весь список внутренних страниц, а именно нужны первые 100 ссылок с каждого домена

    заранее спасибо.
     
  2. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Да, программа позволяет это, если правильно настроить
     

    Вложения:

  3. klever2000

    klever2000 New Member Пользователи

    Регистрация:
    9 апр 2011
    Сообщения:
    7
    Спасибо большое все работает.
    единственно можно перенести параметр site: в строоку добавления ссылки
    получиться вида https://www.google.com.ua/search?q=site:{key}&start={num}
    тогда список {key} можно загружать чисто доменами, а так все отлично.
     
  4. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Операторы и параметры поиска Google

    Конечно, можно и так сделать, однако! Целесообразней оставить как есть, потому что задаваемые Операторы и параметры поиска Google могут быть разные. Параметр site: - это один из многие параметров.

    Операторы и параметры поиска Google

    filetype: Искать файлы только указанного типа (по расширению файла)
    site: Искать в пределах сайта или домена (с поддоменами)
    inurl: Искать страницы со словом в адресе (URL), с русским языком работает нормально
    allinurl: Искать несколько слов в URL страницы
    intext: Искать слово в тексте (<body>) страницы
    allintext: Искать несколько слов в тексте (<body>) страницы
    intitle: Искать слово или фразу (в кавычках) в заголовке (<title>) страницы
    allintitle: Искать несколько слов в заголовке страницы (<title> в html и его аналоги в других типах документов)
    inanchor: Искать несколько слово или фразу в текстах ссылок (<a>)
    allinanchor: Искать несколько слов в анкорах (<a>)
    daterange: Искать в страницах, проиндексированных в указанный промежуток дней (указывать необходимо Юлианские даты)
    related: Найти похожие (по мнению Google) страницы
    info: Показать информацию о странице (если она проиндексирована)
    link: Показать список страниц, ссылающихся на указанный документ (URL)
    cache: Показать версию документа, сохраненного в Google Cache
    define: Определение (значение) фразы или слова.
     
  5. MatrixID

    MatrixID New Member Пользователи

    Регистрация:
    28 апр 2014
    Сообщения:
    1
    аппу тему, прошло 2 года

    Скажите сейчас программа имеет возможность скачивать (парсить) страницы из кеша гугла?
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.
    Да.
    Почему бы и нет. Спарсит документ, который выводится по ссылке... Не вижу в этом никакой проблемы...
     
  7. Vladrom

    Vladrom New Member Пользователи

    Регистрация:
    3 май 2014
    Сообщения:
    1
    А для Яндекса можно настроить парсинг выдачи?
    Использую в шаблоне
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    . Какая должна быть строка в яндексе?
     
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Попробуйте:
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    С уважением к вам, Сергей.
     
  9. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.432
    Адрес:
    Latvia
    С яндексом осторожно, скорее всего понядобиься включение обработки DOM (сочетание клавишь ctrl+h и там отметье пункты где использовать надо, например "контент")
     
  10. Alisa

    Alisa New Member Пользователи

    Регистрация:
    19 окт 2014
    Сообщения:
    22
    Пардон, что апну тему, но вопрос в следующем, тут описан парсинг по списку ключей, а как быть если надо с гугла спарсить related запросы, они обычно идут одинаковые на всех страницах выдачи и переходить по нумерованным страницам не надо, а вот сами запросы при клике на них выдают новые фразы?
     

Поделиться этой страницей