Предложения по улучшению программы

Тема в разделе "Развитие Content Downloader", создана пользователем Root, 13 мар 2010.

  1. russiian

    russiian New Member Пользователи

    Регистрация:
    16 фев 2011
    Сообщения:
    3
    Привет Сергей, не мог бы ты добавить в фильтр ссылок такой параметр, как длина ссылки в символах. Есть сайты на юкозе, где ссылки такого вида:
    Ссылки недоступны для гостей - ссылка на новость
    Ссылки недоступны для гостей - ссылка на новости за 31 декабря 2010 года.
    Хотелось бы, чтобы фильтр считал количество знаков и не парсил ссылки меньше/больше заданных значений.
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Привет, спасибо, учту при обновлениях.
     
  3. kactetus

    kactetus New Member Пользователи

    Регистрация:
    30 авг 2010
    Сообщения:
    9
    Привет, я задавал вопрос выше http://forum.sbfactory.ru/showpost.php?p=476&postcount=156, но так и не получил ответ.

    В данный момент в программе мы задаем задать начало парсинга и задать конец парсинга
    Можно ли добавить такие теги (данные теги используются почти во всех программах и скриптах для парсинга.)
    {skip} - пропустить значение (может входить, что угодно)
    {get} - искомое значение

    Т.к. на некоторых сайтах надо задавать такие конструкции, чтобы получить полную новость, т.к. значения постоянно меняются, специально чтобы трудней было парсить. :)
    PHP:
    <span id={skipname={skip}>{get}<span style="{skip}">
    или
    <span class=date>{skip}</span>{get}<br clear=all>

    Я думаюпринцип вы поняли.
    Ответьте пожалуйста на мой вопрос - "да, нет, тяжело, не нужно, не хочу" :).
    Мне кажется, что данная функция будет полезна многим.
    Если кому-то тоже такое пригодится, чтобы можно было задавать такие шаблоны для парсинга, отпишитесь, что данное улучшение нужно не только мне. :)

    Еще раз хочу поблагодорить автора за отличный софт.
     
    Последнее редактирование: 5 мар 2011
  4. supergood

    supergood New Member Пользователи

    Регистрация:
    22 мар 2011
    Сообщения:
    1
    Прога близка к идеалу, но:

    1. Очень необходимо чтобы в «Редакторе шаблона вывода» была функция для размножения шаблонов вида – «Статичный текст {{салучайно|один|из вариантов}}»

    Пример1:
    Я как раз {{сегодня|вчера|позавчера}} {{приступил к иследованию|{{начал|закончил}} исследованные}} этой темы – {{<CD_GRAN_1!>|<CD_GRAN_2!>|<CD_GRAN_1!> и <CD_GRAN_2!>}}

    2. Необходима функция <RONDOM> чтобы можно было перемешивать слова.

    Пример2:
    Граница <CD_GRAN_1!> содержит «пластиковые окна в Москве»
    а если обернуть тегом:
    <RONDOM><CD_GRAN_1!></RONDOM>
    будут варианты:
    «пластиковые окна в Москве»
    «окна пластиковые в Москве»
    «в Москве пластиковые окна»
    «в Москве окна пластиковые»

    Примеры брал Ссылки недоступны для гостей

    Это значительно сэкономит время.

    PS: Цена на CD нереально низкая, предлагаю повысить цену в 2-3 раза, функционал вырос и ещё вырастет, репутация качественного продукта уже получена, кому она реально нужна купят за любые деньги, а бедных школьников и низкими ценами не привлечь.
     
  5. boodooboo

    boodooboo New Member Пользователи

    Регистрация:
    15 мар 2010
    Сообщения:
    27
    Привет. Можно ли добавить дополнительные поля в редакторе шаблона вывода, хотя бы по 3 штуки или (было бы супер) опционально - сколько надо, столько добавляю.
    Ссылки недоступны для гостей

    И как вариант добавить в шаблон макрос {key}, то есть с каким кеем парсится страница, тот и добавляется в шаблон вывода.
     
  6. bork75

    bork75 New Member Пользователи

    Регистрация:
    2 сен 2010
    Сообщения:
    97
    supergood - размножение статей есть в выводе.

    Конструкция такая {слово|слово|слово|слово}

    -----------------
    Сергей, привет, добавь пожалуйста в шаблон вывода подсказку по всем макросам (если их нет), а то я честно говоря тоже забыл про размножение.

    Есть ещё одно пожелание - Можно ли добавить "поиск и замену" в Дополнительных настройках границ парсинга?
    Бывает необходимость заменить один раз в выбранном участке + другие замены по всему проекту.

    Например, вместо транслит сделать поле с поиском и заменой и там:

    а|a
    б|b
    в|v
    г|g
    ѓ|g
    д|d
    е|e
    ё|yo
    є|ye
    ж|zh
    з|z
    и|i
    і|i
    й|j
    к|k
    л|l
    м|m
    н|n
    о|o
    п|p
    р|r
    с|s
    т|t
    у|u
    ф|f
    х|h
    ц|c
    ч|ch
    ш|sh
    щ|shh
    ы|y
    э|e
    ю|yu
    я|ya
    ь|
    ъ|
    -|-

    Решаем сразу две задачи:
    Человек может самостоятельно контролировать транслит, например сделать транслит для украинского или его не устраивает текущий. Для удобства, можно оставить чекбокс транслита, как сейчас, при его выборе в "поиск и замена" вставляется выше предложенная схема.

    И второе - добавляем возможность производить дополнительные замены.
    Мне очень не хватает замен именно в выбранном участке "границ парсинга"

    Спасибо.

    [​IMG]

    ps: программа очень круто по функционалу прибавила.
     
    Последнее редактирование: 10 апр 2011
  7. lae

    lae New Member Пользователи

    Регистрация:
    7 май 2011
    Сообщения:
    1
    Очень необходимы 2 функции:

    1) Подсветка документов короче n символов.
    2) Подсветка документов у которых есть теги изображений, но изображений нет на диске.
     
  8. bork75

    bork75 New Member Пользователи

    Регистрация:
    2 сен 2010
    Сообщения:
    97
    В доп настройках для изображений, не хватает параметра длины названия картинок.
    Я беру для названий картинок - заголовки.
    И некоторые картинки получаются такие длинные:
    mini-insult_v_ryade_sluchaev_yavlyaetsya_predvestnikom_obshirnogo_narusheniya_mozgovogo_krovoobrasheniya_uvereni_br.jpeg

    Нужно добавить ограничение по количеству символов, до конца слова включительно.
     
  9. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Сделал ограничение длины в 57 символов (ранее было 107 символов).
     
  10. bork75

    bork75 New Member Пользователи

    Регистрация:
    2 сен 2010
    Сообщения:
    97
    Спасибо.

    Сейчас делал проект и оказалось, что во многих постах нету картинок, проверил сайт-донор, там просто ссылки на картинки битые.

    Если в статье битая ссылка на картинку, то CD всё равно добавляет код картинки в текст и потом, не понятно что делать если таких материалов тысяча...

    Т.е. нужно как-то отслеживать этот момент, если в заданных границах присутствует картинка. но она не закачалась, то удалять код <img> (можно в доп. настройках чекбокс добавить - удалять img, если картинка не загрузилась.)
     
    Последнее редактирование: 11 май 2011
  11. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Функция удаления "пустых" тегов картинок есть в "обработка и импорт в КМС" - "массовая обработка файлов" - "чистка документов 2" - "удалить теги изображений, которых нет на диске". Если не подойдет такой вариант, пишите, буду делать другую функцию.
     
  12. bork75

    bork75 New Member Пользователи

    Регистрация:
    2 сен 2010
    Сообщения:
    97
    Если это больше никого не заинтересует, Вариант через обработку подойдёт. Сам решил в зебройде чистить.
    ------------------------------------
    Попробовал через массовую обработку и у меня почему-то удалились все теги с картинками без переноса (оставил пустую строку).
    Проект был сохранён на рабочий стол в отдельной папке material.
    Картинки были в папке images в корне этой же папки.
    В статьях картинки были доступны (через браузер) и имели код
    <img src="file:///C:/Documents%20and%20Settings/Admin/Рабочий%20стол/material/images/1[17047](145x106)[19707](300x217).jpeg" style="magrin-right:10px;" border="0" width="300" height="217" alt="" class="show_img">
     
  13. bork75

    bork75 New Member Пользователи

    Регистрация:
    2 сен 2010
    Сообщения:
    97
    Сергей, посмотри, пожалуйста обсуждение по-поводу имён файлов
    Ссылки недоступны для гостей

    предложение в конце.
     
  14. micher

    micher New Member Пользователи

    Регистрация:
    1 дек 2010
    Сообщения:
    2
    Две неудобности при использовании программы: нельзя вручную назначить целевые папки результатов парсинга и файлов обновления, и невозможность отключения функции автосворачивания в трей. В остальном прога отличная, пока не нашел того, чего бы она не смогла спарсить )
     
  15. boodooboo

    boodooboo New Member Пользователи

    Регистрация:
    15 мар 2010
    Сообщения:
    27
    Сергей, можно ли сделать так, чтобы при создании файла импорта можно было указывать сколько файлов брать из каждой папки.
    Приведу пример, спарсил 1000 файлов и разбил на 10 категорий по 100 штук, обработал, но хочу импортировать все это хозяйство, допустим, в три блога. При создании файла импорта указываю - брать из каждой папки только 30 файлов, CD импортирует первые 300 файлов (из каждой из 10 категории по 30 файлов), при этом их удаляя, потом делаю второй файл импорта, где так же указываю сколько файлов брать из каждой папки, ну и так далее....
     
  16. Focus

    Focus New Member Пользователи

    Регистрация:
    4 апр 2011
    Сообщения:
    38
    Адрес:
    Советский Союз
    Добрый день. Вопрос касаемый прокси: в настройках есть возможность указать использование прокси при сканере сайтов и при парсинге контента, а как обстоит дело с картинками google?
    Может стоит добавить отдельный пункт использования прокси и количество потоков при парсинге гугл картинок?
    Если тема была ранее озвучена и я что то пропустил, прошу пардону.
     
  17. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Я сделаю паузу между запросами к Google картинкам. Спасибо за сообщение.
     
  18. bork75

    bork75 New Member Пользователи

    Регистрация:
    2 сен 2010
    Сообщения:
    97
    Ещё гугл не любит, когда к нему обращаешься от его же имени (googlebot)
    Вот он наверно удивляется ))))

    Может при парсинге поисковиков добавить всплывающее окно - "Не забудьте сменить user-agent"
     
  19. Focus

    Focus New Member Пользователи

    Регистрация:
    4 апр 2011
    Сообщения:
    38
    Адрес:
    Советский Союз
    Во блин, а я забыл сменить, сейчас валяю в 10 потоков :) из 100 картинок только 2 битые получились, посмотрим как дальше будет
     
  20. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    User agent теперь по умолчанию MSIE 6.0
     

Поделиться этой страницей