парсинг статей по ключевм словам из гугл

Тема в разделе "Решение различных задач по парсингу", создана пользователем konfuciy, 25 фев 2014.

  1. konfuciy

    konfuciy New Member Пользователи

    Регистрация:
    10 янв 2013
    Сообщения:
    89
    хочу спарсить статьи с выдачи Google по ключевым словам.

    а так понимаю для этого нужно сделать следующее:
    1. по ключевым словам получить ссылки на статьи из выдачи гугл
    2. со ссылок получить сами статьи

    как это правильно сделать?
    создать два проекта - один для парсинга ссылок, другой для парсинга статей?
    или все можно в рамках одного проекта?
    какой примерно алгоритм должен быть?

    я нашел проект для CD 3.1. для парсинга гугл.
    но не могу понять что он парсит, по виду он парсит только ссылки, а не сами статьи.
    кроме того, в этом проекте какой-то странный шаблон вывода. там идет вывод границ, которые не заданы.
    помогите разобраться, пожалуйста.
     

    Вложения:

    • Googlefor31.cdp
      Размер файла:
      25,3 КБ
      Просмотров:
      81
  2. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.886
    Город:
    Сочи
    Давно я не решался за него браться и сейчас особо не могу, так как потребуется какое-то значительное время на это. Но навести вас на мысли попробую...
     
  3. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.886
    Город:
    Сочи
    Вот, попробуйте проект, набросал я его быстро, но суть, думаю, понятна.
    Спасибо за обращение!
     

    Вложения:

  4. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.886
    Город:
    Сочи
    Вот так почище будет, убрал ссылки на морды сайта
     

    Вложения:

  5. konfuciy

    konfuciy New Member Пользователи

    Регистрация:
    10 янв 2013
    Сообщения:
    89
    спасибо огромное.
    я пока тренировался с первым проектом и ссылки у меня собрались на ура.
    как я действовал, может кому пригодится
    см ниже
     
    Последнее редактирование: 25 фев 2014
  6. konfuciy

    konfuciy New Member Пользователи

    Регистрация:
    10 янв 2013
    Сообщения:
    89
    слово google в фильтрах не должно быть, так как все ссылки выдаваемые гуглом в выдаче его как раз имеют, а из них уже надо вырезать нужное.
    то есть слово google из фильтров я убрал.
     
  7. konfuciy

    konfuciy New Member Пользователи

    Регистрация:
    10 янв 2013
    Сообщения:
    89
    забыл написать у меня cd 8, а проект для 3.1., видимо он криво грузится, или выполняется из-за этого.
    собственно пока проблема со сбором контента из ссылок.
    шаблон вывода у меня выглядит так
    <CD_HEADER!>
    <CD_GRAN_1!>
    <CD_GRAN_2!>
    <CD_GRAN_3!>
    <CD_GRAN_4!>
    <CD_GRAN_5!>
    <CD_GRAN_6!>
    <CD_GRAN_7!>
    <CD_GRAN_8!>
    <CD_GRAN_9!>
    <CD_GRAN_10!>
    <CD_GRAN_11!>
    <CD_GRAN_12!>
    <CD_GRAN_13!>
    <CD_GRAN_14!>
    <CD_GRAN_15!>
    <CD_GRAN_16!>
    <CD_GRAN_17!>
    <CD_GRAN_18!>
    <CD_GRAN_19!>
    <CD_GRAN_20!>
    <CD_CYCLE_GRAN_1!>
    <CD_CYCLE_GRAN_2!>
    <CD_CYCLE_GRAN_3!>

    при этом из всех границ заполнена только <CD_CYCLE_GRAN_1!>
    <div class="s"> - начало
    <br> - конец

    очевидно это все не работает
     
  8. konfuciy

    konfuciy New Member Пользователи

    Регистрация:
    10 янв 2013
    Сообщения:
    89
    все, со второй частью также справился
    в шаблоне вывода достаточно просто написать
    см ниже
    в общем статьи более-менее выводит, не всегда корректно, но вполне приемлемо!
     
    Последнее редактирование: 25 фев 2014
  9. konfuciy

    konfuciy New Member Пользователи

    Регистрация:
    10 янв 2013
    Сообщения:
    89
    задача - спарсить статьи с сайтов, кторые выдает гугл по определенным ключевикам
    регламент действий такой
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
     
    Последнее редактирование: 27 фев 2014
  10. sn2368

    sn2368 New Member Пользователи

    Регистрация:
    4 авг 2012
    Сообщения:
    14
    Не видит ссылки и бана нет
    "Документ, который вы пытаетесь загрузить, пуст."
     
  11. konfuciy

    konfuciy New Member Пользователи

    Регистрация:
    10 янв 2013
    Сообщения:
    89
    не очень понятно на каком этапе возникла проблема.
    возможно дело в бане айпи гуглом.
    вы какой проект использовали?
     
  12. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.463

    ПРОВЕРЯЙТЕ ВАШИ ГРАНИЦЫ. если пуст - значит действительно пуст
     
  13. 10webs

    10webs New Member Пользователи

    Регистрация:
    17 июл 2014
    Сообщения:
    1
    Можете проект под новую версию скинуть, пожалуйста
     
  14. cyanide

    cyanide New Member Пользователи

    Регистрация:
    22 июл 2014
    Сообщения:
    5
    Аналогичная задача. Друзья, я недавно приобрел программу, хочу научиться делать сдедующее - есть список кейвордов - по ним надо напарсить контента со страниц или прямо со сниппетов, и экспортировать в sql базу для wordpress - чтобы импортировать на свой wp - сайт. Чтобы тайтлами были эти самые киворды. Лучше чтобы со страниц дергало, чем со сниппетов, так как контент нужен читаемый. ( кивордов очень много - больше тысячи ). Могу ли я попросить помощи в составлении проекта? Можно не за бесплатно.
     
  15. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.463
    Вы вообще о чем?
     
  16. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.463
    Вы про какую аналогичную задачу говорите?
    на эту тему есть посты, поизучайте то что уже есть.
    эта задача также рассматривается отдельно на сайте.
    Можете. Создайте пост в соответствующем разделе, опишите детально что вам необходимо, возможно кто-то поможет.
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
     
  17. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.886
    Город:
    Сочи
    Господин Kreol, а где есть посты на тему
    Можно ссылочку, пожалуйста...
     
  18. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    3.297
    Коллега имел в виду те темы о парсинге гоогле которые содержат подробную информацию.
    Достаточно воспользоваться поиском (вверху форума) и все найдется.
    * http://forum.sbfactory.ru/showthread.php?p=10416 - Парсинг по ключевикам
    * http://forum.sbfactory.ru/showthread.php?t=86 - Парсер контента по ключевым словам
    * http://forum.sbfactory.ru/showthread.php?p=2139 - Как парсить гугл|google кеш (ссылок)
     
  19. cyanide

    cyanide New Member Пользователи

    Регистрация:
    22 июл 2014
    Сообщения:
    5
    еще валяются у меня старинные сайты ucoz - умеет ли программа что нибудь с юкозом делать?
     
  20. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.886
    Город:
    Сочи
    Думаю, все умеет)
     

Поделиться этой страницей