Предложения по улучшению программы

Тема в разделе "Развитие Content Downloader", создана пользователем Root, 13 мар 2010.

  1. GorSite

    GorSite New Member Пользователи

    Регистрация:
    16 сен 2010
    Сообщения:
    9
    Адрес:
    Москва
    так лучше сразу не ограничивать количество этих полей
    зачем потом переделывать?
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.162
    Город:
    Барнаул
    Не все так просто, как кажется.
     
  3. nikonoff

    nikonoff New Member Пользователи

    Регистрация:
    4 окт 2010
    Сообщения:
    6
    Root, добрый вечер.

    Столкнулся с проблемой, сайт донор использует расстраничиволку, сделанную с помощью java, естественно парсер не может ее обработать.

    Можно реализовать в программе ручное добавление ссылок в список обработки ссылок сканера сайта (с помощью шаблона {num}).
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.162
    Город:
    Барнаул
    Привет, конечно, сегодня постараюсь сделать.
     
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.162
    Город:
    Барнаул
    Я сделал добавление из списка ссылок парсинга. То есть в главном окне программы строим список по шаблону и потом добавляем его в сканер сайтов.

    Если хотите получить обновленный файл раньше выхода обновления - стучите в ICQ.
    Ссылки недоступны для гостей
    Спасибо.
     
  6. nikonoff

    nikonoff New Member Пользователи

    Регистрация:
    4 окт 2010
    Сообщения:
    6
    Спасибо.
     
  7. pensionary

    pensionary New Member Пользователи

    Регистрация:
    14 окт 2010
    Сообщения:
    3
    есть такие предложения:
    Первое чисто маркетинговое, сделать лайт-версию, парсер для чайников из пары кнопок:
    вбил один урл сайта или пакетно, прога собрала ссылки и попробовала автоматически забрать статью- если визуально все верно, юзер подтверждает и текст с подтвержденных урлов падает в папку.
    С соответствующей ценой можно охватить новую аудиторию, а кто распробует - делать апгрейд на полную версию. Если параллельное ведение двух версий накладно, можно это в стандартной версии оформить как доп. режим работы, эдакий визард.

    Второе для профи- в режиме обработки текста сделать перелинковку, т.е. задается формат
    слово1|слово2|слово3; урл1
    слово4|слово5|слово6; урл2
    и весь контент прогоняется.
    Т.о. можно внутреннюю или внешнюю анкорную перелинковку сделать.

    И вопрос, прога контент в ANSI/UTF сохраняет после парсинга, а вот после обработки только в ANSI- или я не нашел где поменять?
     
    Последнее редактирование: 14 окт 2010
  8. GasTarbols

    GasTarbols New Member Пользователи

    Регистрация:
    13 окт 2010
    Сообщения:
    1
    Вот только зачем слова переписывать, лучше бы реализовать следующее:
    Вводим слово "автомобиль", а он уже сам находит в тексте слова Автомобиль, Автомобили, Автомобильный, Автомобильному и т.д.
    Т.е. линковать не только слово, но и его словоформу.

    В качестве входных данных не плохо бы сделать следующее:
    - Анкор для перелинковки (автомобиль)
    - Ссылка куда линковать
    - Вставка _self _blank на выбор
    - количество ссылок в тексте (например "не более 1 ссылки на 1к знаков" или просто "не более 2 ссылок на одной странице".

    У zebrum это всё доходчиво расписано в паре абзацах Ссылки недоступны для гостей
     
  9. pensionary

    pensionary New Member Пользователи

    Регистрация:
    14 окт 2010
    Сообщения:
    3
    Еще интересный способ реализации есть в Maxsite CMS - плагин перелинкс: берет слова из заголовков постов, ищет их в тексте и делает ссылкой на пост, где это слово в заголовке.
    Если дополнить фильтром на короткие 3хсимвольные слова (убрать предлоги) и фильтр на окончания (убрать прилагательные), то можно на автомате быстро перелинковывать большие обьемы текстов.
    Правда у него есть глюк - ложно срабатывает на слова внутри тегов <a></a> и на слова в титле\альт, это нужно учитывать, если решите делать похожий механизм.
     
  10. WeXX

    WeXX El Perro Модератор Пользователи

    Регистрация:
    22 май 2010
    Сообщения:
    23
    ООО +100500!!! Я всеми конечностями ЗА граммотно продуманную перелинковку!
    Еще за SEO модуль =)
    Траф определенно нужен, как средство от различных фильтров
     
  11. ifund

    ifund New Member Пользователи

    Регистрация:
    5 ноя 2010
    Сообщения:
    5
    Классная программа, но столкнулся вот с какой фишкой - не хватает опций для парсинга повторяющихся границ:
    нужно хотя бы 3 повторяющихся элемента: название товара, цена, краткое описание. Для запаса - добавить и 4ю повторяющуюся границу.
    Плюс необходима возможность в шаблоне вывода выводить эти повторяющиеся элементы не кучей, а один к одному.
    Например
    Простой_элемент_1|Повторяющйися_элемент_!1|Повторяющийся_элемент_2|Повторяющийся_элемемент_3.

    Сейчас же выводиться все так:
    Простой элемент1
    Повторяющийся_элемент1_1
    .
    .
    Повторяющийся_элемент1_N
    Повторяющийся_элемент2_1
    .
    .
    Повторяющийся_элемент2_N
    Повторяющийся_элемент3_1
    .
    .
    Повторяющийся_элемент3_N

    Реализация этого предложения значительно расширяет применимость программы.
    Прошу обязательно реализовать эту функцию - это очень удобно. Может быть добавить другое название макроса, например <CD_CYCLE_GRAN_1_STEP!>

    Пожалуйста, сделайте эту фичу - очень жду.
    Спасибо
     
  12. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.162
    Город:
    Барнаул
    Спасибо за предложение, постараюсь реализовать
     
  13. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.162
    Город:
    Барнаул
    По диагонали читал и не то сделал ;) Ссылки недоступны для гостей. Мысль понял, на днях постараюсь реализовать. Прошу обратиться в ICQ 571-880-051 для выяснения деталей. Спасибо!
     
  14. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.162
    Город:
    Барнаул
    Готово:


    Content Downloader версии 10.01 (05.11.2010):

    - Теперь можно задать разделитель для повторяющихся границ парсинга (кнопка - "настройка повторяющихся границ").
     
  15. ifund

    ifund New Member Пользователи

    Регистрация:
    5 ноя 2010
    Сообщения:
    5
    Уже испытал доработку - отлично работает! Спасибо!
    Не знаю, уж, может это наглость, но вот к этой доработке вот какую фишечку небольшую сделать бы - сейчас если в настройке шаблона вывода прописать в начало каждого цикла повторяющихся границ макрос <CD_GRAN_1!>| , то в выводе он не будет заменен, хотя и подставится самое название макроса к каждой строчке циклических границ.
    Зачем это нужно: парсим раздел с товарами, в макросе <CD_GRAN_1!> находится название раздела, в шаблон пытаемся вывести инфу в таком виде:
    название_раздела|название_товара_1|описание_товара_1|цена_товара1#13
    .
    .
    название_раздела|название_товара_N|описание_товара_N|цена_товара_N#13

    Сейчас все выводится с помощью вашей новой доработки, кроме первой части строки "название_раздела". Вместо нее выводится само название макроса <CD_GRAN_1!>.
    Вот можно сделать, чтобы макросы обрабатывались еще и в полях "прописывать в начало и в конец каждого цикла повторяющихся границ 1"? Т.е. чтобы выводилось не их название, а их значение.
    Тогда эта возможность работы с повторяющимися границами будет отвечать вообще всем возможным запросам практически любого человека.

    И маленький такой вопрос, а не планируется сделать работу парсера многопоточной, с использованием проксей в будущем? (это вообще была бы бомба - крайне быстрый сбор разнообразной информации с требуемых сайтов).
    Ну или работа по планировщику - ставим время, когда начинать работать, указываем с какой периодичностью дергать страницы, с каким отклонением и это пробивает почти все защиты от копипаста.
     
  16. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.162
    Город:
    Барнаул
    Ок, сейчас сделаю.
    Насчет многопоточности - она и так реализована).
     
  17. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.162
    Город:
    Барнаул
    Content Downloader версии 10.03 (06.11.2010):

    - Реализована поддержка макросов из шаблона вывода в настройке повторяющихся границ парсинга.

    Так пойдет?
     
  18. ifund

    ifund New Member Пользователи

    Регистрация:
    5 ноя 2010
    Сообщения:
    5
    Сенкс, все отлично работает, как и хотелось.
    А с многопоточностью это вообще чудо.
    Приятно удивлен качеством программы - интерфейс, возможности, скорость работы - все отлично.
     
  19. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.162
    Город:
    Барнаул
    Спасибо, обращайтесь.
     
  20. termit

    termit New Member Пользователи

    Регистрация:
    13 ноя 2010
    Сообщения:
    3
    А можно сделать что бы работали сочетания ctrl+c и сtrl+v при заполнении границ парсинга?
     

Поделиться этой страницей