Парсер контента по ключевым словам

Тема в разделе "Разное", создана пользователем drju28, 23 май 2011.

  1. drju28

    drju28 New Member Пользователи

    Регистрация:
    9 май 2011
    Сообщения:
    1
    Можно ли CD применять, как парсер контента по ключевым словам, то есть задавать один или несколько ключей, CD идет допустим в гугл и по кеям парсит подходящею текстовку в папку. Если можно, то как это реализовать?:confused:
     
  2. boodooboo

    boodooboo New Member Пользователи

    Регистрация:
    15 мар 2010
    Сообщения:
    27
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! .
    Или можно введя поисковый запрос спарсить ссылки и на сайты и автоматически находя статью спарсить контент со всех сайтов - но придется чистить.
     
  3. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.625
    Город:
    Сочи
    boodooboo, спасибо за ответ.
    Позже планирую написать подробную инструкцию для парсинга статей по кеям с Google и доработать под это программу.
     
  4. cdcustomer

    cdcustomer New Member Пользователи

    Регистрация:
    17 мар 2012
    Сообщения:
    41
    Не могу понять как под это дело составлять сам шаблон, после вставки урла Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! все дальше темнота, подскажите кто не будь ?
     
  5. zortexx

    zortexx New Member Пользователи

    Регистрация:
    5 авг 2012
    Сообщения:
    35
    Тоже интересует этот вопрос. Программа мощная, и, видимо, каких-то специфичных знаний не хватает, чтобы такую задачу решить.
     
  6. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Анализируёте ссылки. При нажатии на ссылку после поиска открывается какой-то сайт. Вам нужно именно эту ссылку получить. Однако в коде Гугля ссылка не совсем "чистая". Прежде всего в начале идёт
    /url?q=, затем куча ненужного нам мусора, который начинается с &sa=

    Код:
    <h3 class="r"><a href="/url?q=http://yandex.ru/advanced.html&amp;sa=U&amp;ei=DgceUJ3sPI2AhQfjs4DwBg&amp;ved=0CBoQFjAA&amp;usg=AFQjCNFNZqBfpYpmLvaQKJPH4Q--6jPE4g" target="_blank">Расширенный <b>поиск</b> - Яндекс</a></h3>
    Воспользуйтесь макросами поиска замены, настройте фильтр ссылок так, чтобы эти дела удалялись (там уже есть поля поиска-замены), вот и всё. Ничего сложного.
     
  7. zortexx

    zortexx New Member Пользователи

    Регистрация:
    5 авг 2012
    Сообщения:
    35
    Это все понятно. Проблема не в том, чтобы выпарсить сами ссылки, которые, к слову сказать, CD2 выпарсивает с гугля "на ура". Проблема в том, что я не могу найти как сделать так, чтобы CD2 понимал регулярные выражения при задании границ парсинга. И с обработкой текста конечного есть вопросы. Так, при чистке текста возникают проблемы если фамилия человека идет с инициалами. Программно такое сделать я знаю как, а регулярками не получается.
    Я за сегодня набросал проект. Который, к слову, даже работает. Правда мусора в текстах очень много. Вручную отсматривать по 10 мегабайт на один ключ - не вариант. Особенно, если их сотни тысяч.
     
  8. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    3.080
    Регулярные выражения работают везде где есть "поиск замена"
    В инструкции описано подробнее - Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
     
  9. zortexx

    zortexx New Member Пользователи

    Регистрация:
    5 авг 2012
    Сообщения:
    35
    Я говорил о задании границ парсинга с использованием регулярок.

    А насчет "поиска и замены", то следующая конструкция в нем не работает.
    Останавливается парсинг, хотя в Notepad++ и EmEditor все работает.
     
  10. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    В границы точно нельзя будет вставлять, но настройки из "поиск-замена" распространяются на конкретную границу

    Всё зависит какие языки регулярных выражений используются. Я не уверен, что именно это поможет, но попробуйте "Элементы языка регулярных выражений" для .NET Framework 4 - Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! . В программах, работающих с использование NET Framework эти регулярки идут. Посмотрите ещё вот эту Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!

    И ещё,- ради проверки, покажите страницу, на которой использовали регулярку, чтобы можно было протестировать
     
    Последнее редактирование: 6 авг 2012
  11. zortexx

    zortexx New Member Пользователи

    Регистрация:
    5 авг 2012
    Сообщения:
    35
    Спасибо, Valiks, теперь понятно. Если я все правильно понял, язык регулярок .NET Framework 4 - не поддерживает диапазоны. Поищу другое решение.
     
  12. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Я сам редко пользуюсь регулярками в CD по той причине, что ещё не встречал ни одного проекта, когда это было крайне необходимо. Практически всё решается средствами Content Downloader-а, без применения регулярок. Но, у каждого свои задачи. Надо понимать, что программа это просто инструмент (ради справедливости надо сказать, имеющий огромный потенциал возможностей), а уж как вы им будете пользоваться зависит прежде всего от вас, ваших умений и знаний.
     
  13. tortxp

    tortxp New Member Пользователи

    Регистрация:
    19 ноя 2015
    Сообщения:
    8
    появилась инструкция как парсить статьи с сайтов по ключевым словам?
     
  14. actoriy

    actoriy New Member Пользователи

    Регистрация:
    15 апр 2017
    Сообщения:
    21
    Поделитесь кто нибудь инструкцией или проектом парсинга статей по ключевым словам. Пожалуйста!
     
  15. MarioN

    MarioN New Member Пользователи

    Регистрация:
    17 июн 2018
    Сообщения:
    3
    Город:
    Москва
    Очень нужна помощь по настройке, необходимо парсить контент по ключевым словам с Google
     

Поделиться этой страницей