Парсинг сайтов из выдачи ПС

Тема в разделе "Решение задач по парсингу", создана пользователем kolalakolala, 11 янв 2017.

  1. kolalakolala

    kolalakolala New Member Пользователи

    Регистрация:
    6 дек 2016
    Сообщения:
    27
    Подскажите, пожалуйста.

    Нужно по списку ключей спарсить контент (по каждому запросу по 10 источников). Но что бы текст брался не из снипетов, а с самого сайта (автопарсингом).

    Для примера - сейчас я паршу ПС по снипетам - используя парам. И в цсв файл выводится следующим образом: одна колонка - param (ключ по которму парсился коонтент), вторая - спаршеный контент из снипетов. Нужно то же самое, но так, что бы контент шел из сайтов (например дескрипшен сайта или тело новости).

    Как заставит КД лезть дальше по ссылке из снипета и парсить контент напрямую с сайта?
     
  2. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    7.242
    Адрес:
    sbfroot@gmail.com
    Здравствуйте.

    Какую поисковую систему вы парсите?
     
  3. kolalakolala

    kolalakolala New Member Пользователи

    Регистрация:
    6 дек 2016
    Сообщения:
    27
  4. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    2.617
    Во вкладке ССЫЛКИ проставить надо список ссылок от поисковика, меняется пагинация с одним кючем например надо одна или 5 страниц.
    Второй этап это парсинг по ссылке, в шаблоне вывода (Ctrl+2) используйте макрос <CD_AUTO!> (скрин Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! )
    Готово!
     
    Root и kolalakolala нравится это.
  5. kolalakolala

    kolalakolala New Member Пользователи

    Регистрация:
    6 дек 2016
    Сообщения:
    27
    Спасибо, не совсем понял первую часть.
    Сейчас паршу так
    upload_2017-1-11_13-37-58.png
     

    Вложения:

    Последнее редактирование: 11 янв 2017
  6. kolalakolala

    kolalakolala New Member Пользователи

    Регистрация:
    6 дек 2016
    Сообщения:
    27
    Так вот не понятно, как сделать так, что бы КД прошелся по запросам, взял из них ссылки и пошел по ссылкам.
     
    Последнее редактирование: 11 янв 2017
  7. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    7.242
    Адрес:
    sbfroot@gmail.com
    После сбора ссылок автоматически запустится сбор контента.
     

    Вложения:

    • bing_com.cdp
      Размер файла:
      32,1 КБ
      Просмотров:
      2

Поделиться этой страницей