Парсер контента по ключевым словам

Тема в разделе "Разное", создана пользователем drju28, 23 май 2011.

  1. drju28

    drju28 New Member Пользователи

    Регистрация:
    9 май 2011
    Сообщения:
    1
    Можно ли CD применять, как парсер контента по ключевым словам, то есть задавать один или несколько ключей, CD идет допустим в гугл и по кеям парсит подходящею текстовку в папку. Если можно, то как это реализовать?:confused:
     
  2. boodooboo

    boodooboo New Member Пользователи

    Регистрация:
    15 мар 2010
    Сообщения:
    27
    Ссылки недоступны для гостей.
    Или можно введя поисковый запрос спарсить ссылки и на сайты и автоматически находя статью спарсить контент со всех сайтов - но придется чистить.
     
  3. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    boodooboo, спасибо за ответ.
    Позже планирую написать подробную инструкцию для парсинга статей по кеям с Google и доработать под это программу.
     
    timur777 нравится это.
  4. cdcustomer

    cdcustomer New Member Пользователи

    Регистрация:
    17 мар 2012
    Сообщения:
    41
    Не могу понять как под это дело составлять сам шаблон, после вставки урла Ссылки недоступны для гостей все дальше темнота, подскажите кто не будь ?
     
  5. zortexx

    zortexx New Member Пользователи

    Регистрация:
    5 авг 2012
    Сообщения:
    35
    Тоже интересует этот вопрос. Программа мощная, и, видимо, каких-то специфичных знаний не хватает, чтобы такую задачу решить.
     
  6. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Анализируёте ссылки. При нажатии на ссылку после поиска открывается какой-то сайт. Вам нужно именно эту ссылку получить. Однако в коде Гугля ссылка не совсем "чистая". Прежде всего в начале идёт
    /url?q=, затем куча ненужного нам мусора, который начинается с &sa=

    Код:
    <h3 class="r"><a href="/url?q=http://yandex.ru/advanced.html&amp;sa=U&amp;ei=DgceUJ3sPI2AhQfjs4DwBg&amp;ved=0CBoQFjAA&amp;usg=AFQjCNFNZqBfpYpmLvaQKJPH4Q--6jPE4g" target="_blank">Расширенный <b>поиск</b> - Яндекс</a></h3>
    Воспользуйтесь макросами поиска замены, настройте фильтр ссылок так, чтобы эти дела удалялись (там уже есть поля поиска-замены), вот и всё. Ничего сложного.
     
  7. zortexx

    zortexx New Member Пользователи

    Регистрация:
    5 авг 2012
    Сообщения:
    35
    Это все понятно. Проблема не в том, чтобы выпарсить сами ссылки, которые, к слову сказать, CD2 выпарсивает с гугля "на ура". Проблема в том, что я не могу найти как сделать так, чтобы CD2 понимал регулярные выражения при задании границ парсинга. И с обработкой текста конечного есть вопросы. Так, при чистке текста возникают проблемы если фамилия человека идет с инициалами. Программно такое сделать я знаю как, а регулярками не получается.
    Я за сегодня набросал проект. Который, к слову, даже работает. Правда мусора в текстах очень много. Вручную отсматривать по 10 мегабайт на один ключ - не вариант. Особенно, если их сотни тысяч.
     
  8. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.429
    Адрес:
    Latvia
    Регулярные выражения работают везде где есть "поиск замена"
    В инструкции описано подробнее - Ссылки недоступны для гостей
     
  9. zortexx

    zortexx New Member Пользователи

    Регистрация:
    5 авг 2012
    Сообщения:
    35
    Я говорил о задании границ парсинга с использованием регулярок.

    А насчет "поиска и замены", то следующая конструкция в нем не работает.
    Останавливается парсинг, хотя в Notepad++ и EmEditor все работает.
     
  10. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    В границы точно нельзя будет вставлять, но настройки из "поиск-замена" распространяются на конкретную границу

    Всё зависит какие языки регулярных выражений используются. Я не уверен, что именно это поможет, но попробуйте "Элементы языка регулярных выражений" для .NET Framework 4 - Ссылки недоступны для гостей. В программах, работающих с использование NET Framework эти регулярки идут. Посмотрите ещё вот эту Ссылки недоступны для гостей

    И ещё,- ради проверки, покажите страницу, на которой использовали регулярку, чтобы можно было протестировать
     
    Последнее редактирование: 6 авг 2012
  11. zortexx

    zortexx New Member Пользователи

    Регистрация:
    5 авг 2012
    Сообщения:
    35
    Спасибо, Valiks, теперь понятно. Если я все правильно понял, язык регулярок .NET Framework 4 - не поддерживает диапазоны. Поищу другое решение.
     
  12. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Я сам редко пользуюсь регулярками в CD по той причине, что ещё не встречал ни одного проекта, когда это было крайне необходимо. Практически всё решается средствами Content Downloader-а, без применения регулярок. Но, у каждого свои задачи. Надо понимать, что программа это просто инструмент (ради справедливости надо сказать, имеющий огромный потенциал возможностей), а уж как вы им будете пользоваться зависит прежде всего от вас, ваших умений и знаний.
     
  13. tortxp

    tortxp New Member Пользователи

    Регистрация:
    19 ноя 2015
    Сообщения:
    9
    появилась инструкция как парсить статьи с сайтов по ключевым словам?
     
  14. actoriy

    actoriy New Member Пользователи

    Регистрация:
    15 апр 2017
    Сообщения:
    22
    Поделитесь кто нибудь инструкцией или проектом парсинга статей по ключевым словам. Пожалуйста!
     
  15. MarioN

    MarioN New Member Пользователи

    Регистрация:
    17 июн 2018
    Сообщения:
    3
    Город:
    Москва
    Очень нужна помощь по настройке, необходимо парсить контент по ключевым словам с Google
     
  16. LiChu

    LiChu New Member Пользователи

    Регистрация:
    25 июн 2018
    Сообщения:
    2
    Тема не новая но для но актуальная. Спасибо всем кто старался.
     
  17. timur777

    timur777 Member Пользователи

    Регистрация:
    24 дек 2019
    Сообщения:
    118
    Город:
    Москва
    Доброго времени суток! Ищу видео или инструкцию по парсингу статей по ключевым словам из Google или Yandex но никак не могу! Уважаемые модераторы, могли бы вы оказать помощь по настройке был бы очень вам благодарен?! Пожалуйста прошу помочь! Цель наполнить свой информационный сайт на CMS Wordpress 1000 статей по ключевым словам за 3 месяца) Заранее благодарю! Если данная услуга платная, то готов отблагодарить) Заранее спасибо.
     
  18. timur777

    timur777 Member Пользователи

    Регистрация:
    24 дек 2019
    Сообщения:
    118
    Город:
    Москва
    Здравствуйте! Подскажите пожалуйста, где данная инструкция! Спасибо.
     
  19. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Ссылки недоступны для гостей
     
    timur777 нравится это.
  20. timur777

    timur777 Member Пользователи

    Регистрация:
    24 дек 2019
    Сообщения:
    118
    Город:
    Москва
    Благодарю!
     

Поделиться этой страницей