Госзакупки

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем Magsim, 16 мар 2014.

  1. Magsim

    Magsim New Member Пользователи

    Регистрация:
    16 мар 2014
    Сообщения:
    45
    Есть ли опыт парсинга сайтов госзакупок, и на сколько это эффективно с использованием Content Downloader?
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.
    Опыта нет, парсить можно почти все.
     
  3. Magsim

    Magsim New Member Пользователи

    Регистрация:
    16 мар 2014
    Сообщения:
    45
    Можно ли парсить отдельные по выбору ресурсы?
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Можно.
     
  5. СТЕПАН

    СТЕПАН New Member Супер Модератор

    Регистрация:
    10 мар 2013
    Сообщения:
    51
    Адрес:
    Казахстан
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 99999 постов.**
     
  6. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.432
    Адрес:
    Latvia
    Униварсально не, поскольку надо настраивать для каждого сайта по разному, выберите пару толковых источников и потом с них подтягивайте инфу парсером Content Downloader:happy:
     
  7. Magsim

    Magsim New Member Пользователи

    Регистрация:
    16 мар 2014
    Сообщения:
    45
    Тогда еще вопрос, раз вы здесь добрые и знающие )
    Новые сообщения отличает от старых?
     
  8. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.432
    Адрес:
    Latvia
    Дубли информации можно отсеивать на основе ссылок одинаковых но дубли сообщений например с других страниц невозможно проанализировать - НО, к программе можно подключить php скрипты и это совсем другая история))

    [​IMG]

    п.с. это в настройке программы, но еще во время парсинга в "шаблоне вывода" тоже можно
     
  9. Magsim

    Magsim New Member Пользователи

    Регистрация:
    16 мар 2014
    Сообщения:
    45
    Хорошо
    Как я уже понял, по настройке скриптов можно обратиться к вам.
     
  10. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.432
    Адрес:
    Latvia
    Лишь описал возможности программы, а насчет скриптов подключаемых надо обращаться к программистам которые реализуют на php нужный дополнительный функционал.
     
  11. Magsim

    Magsim New Member Пользователи

    Регистрация:
    16 мар 2014
    Сообщения:
    45
    Эти программисты здесь есть, или скажите где их искать.
     
  12. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Здравствуйте!
    Вы для начала определитесь что именно хотите сделать.
    А то все вокруг да около. Здесь каждый что-то умеет и знает, и Вы не исключение. Но читать мысли увы и ах.
     
  13. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Давайте, все же, попробуем. Может кто покажет эти дубли сообщений?
     
  14. nikolas1612

    nikolas1612 Member Пользователи

    Регистрация:
    27 ноя 2011
    Сообщения:
    439
    насколько я понимаю, речь идет о выявлении нечетких дубликатов информационных сообщений, с последующим их удалением методом супершинглов. наличие такого функционала в программе (а еще лучше - сдание отдельного модуля, который может быть запущен в планировщике КД в произвольный момент) - это было бы очень здорово. ибо полноценного софта, способного решать эту задачу на сегодняшний день нет.

    если будет интерес к этой теме - я не только покажу нечеткие дубли, с которыми надо работать, но и программные наработки в Дельфях, успешно удаляющие дубликаты. проблема в моем самодельном софте - то, что очень медленно работает, нужен более быстрый алгоритм.
     
  15. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Давай показывай дубли уже), если можно, естественно...
     
  16. nikolas1612

    nikolas1612 Member Пользователи

    Регистрация:
    27 ноя 2011
    Сообщения:
    439
    в архиве 4 папки. в каждой по 2 htm файла. содержание - об одном и том же. суть в том, что каждая новость прошла "легкий рерайт". в итоге сообщение то же, слова примерно те же, а полного совпадения уже нет.

    после того как алгоритм отсева пройдется по этим папкам - в каждой должен остаться только 1 файл.

    P.S. отобраны реальные дубли, которые проверены на удаляемость методом шинглов с настройками
    1). схожесть=20%
    2). длина шингла=2
    3). длина учитываемых слов - от 6 символов.

    если что-то неясно - поясню в Скайпе. Также готов предоставить базовый, но несовершенный алгоритм отсева.
     

    Вложения:

    • double.rar
      Размер файла:
      6,3 КБ
      Просмотров:
      0
  17. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Спасибо!
    Знать бы еще, насколько это важно. Нужно ли кому это вообще помимо пары людей =)))
     

Поделиться этой страницей