Есть ли опыт парсинга сайтов госзакупок, и на сколько это эффективно с использованием Content Downloader?
Униварсально не, поскольку надо настраивать для каждого сайта по разному, выберите пару толковых источников и потом с них подтягивайте инфу парсером Content Downloader:happy:
Дубли информации можно отсеивать на основе ссылок одинаковых но дубли сообщений например с других страниц невозможно проанализировать - НО, к программе можно подключить php скрипты и это совсем другая история)) п.с. это в настройке программы, но еще во время парсинга в "шаблоне вывода" тоже можно
Лишь описал возможности программы, а насчет скриптов подключаемых надо обращаться к программистам которые реализуют на php нужный дополнительный функционал.
Здравствуйте! Вы для начала определитесь что именно хотите сделать. А то все вокруг да около. Здесь каждый что-то умеет и знает, и Вы не исключение. Но читать мысли увы и ах.
насколько я понимаю, речь идет о выявлении нечетких дубликатов информационных сообщений, с последующим их удалением методом супершинглов. наличие такого функционала в программе (а еще лучше - сдание отдельного модуля, который может быть запущен в планировщике КД в произвольный момент) - это было бы очень здорово. ибо полноценного софта, способного решать эту задачу на сегодняшний день нет. если будет интерес к этой теме - я не только покажу нечеткие дубли, с которыми надо работать, но и программные наработки в Дельфях, успешно удаляющие дубликаты. проблема в моем самодельном софте - то, что очень медленно работает, нужен более быстрый алгоритм.
в архиве 4 папки. в каждой по 2 htm файла. содержание - об одном и том же. суть в том, что каждая новость прошла "легкий рерайт". в итоге сообщение то же, слова примерно те же, а полного совпадения уже нет. после того как алгоритм отсева пройдется по этим папкам - в каждой должен остаться только 1 файл. P.S. отобраны реальные дубли, которые проверены на удаляемость методом шинглов с настройками 1). схожесть=20% 2). длина шингла=2 3). длина учитываемых слов - от 6 символов. если что-то неясно - поясню в Скайпе. Также готов предоставить базовый, но несовершенный алгоритм отсева.