Предложения по улучшению программы

Тема в разделе "Развитие Content Downloader", создана пользователем Root, 13 мар 2010.

  1. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Ссылки недоступны для гостей - такой метод подойдет?
    Ссылки недоступны для гостей - или такой?
     
  2. bork75

    bork75 New Member Пользователи

    Регистрация:
    2 сен 2010
    Сообщения:
    97
    ... потестил, не совсем работают регулярки

    Пробовал так:

    re:<p>[^\w^\d]*</p>| - бывает удаляет <p>строки с текстом </p>
    re:<p>[\n\r\s\t]*</p>| - если перенос на следующую строку, то удаляет, если ещё пробел, то уже не удаляет.

    В RegexBuddy оба работают
     
    Последнее редактирование: 2 дек 2011
  3. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Дак эти пустые абзацы с конца текста идут или как?)
    Не вариант просто все случаи перебрать тегов p?
     
  4. jozess

    jozess Member Пользователи

    Регистрация:
    19 дек 2010
    Сообщения:
    122
    Добрый день. Уже в который раз сталкиваюсь с неприятной ситуацией при работе с CD, и приходится заново парсить весь проект. Дело в том, что я сохраняю материал в папки (Мода, Стиль, Новости и тд.) а картинки сохраняются в каждой папке в новую созданную папку image.

    Тут то и проблема. Получается что названия у картинок идут сначала image_1,image_2,image_3...... и получается в каждой папке, получаются дубли, а это неправильно. Конечно можно брать с границ парсигра названия, но это не выход. Были одинаковые тайтлы, и опять же дубли.

    Если сделать возможность в настройках картинок, сделать галочку, - продолжать нумерацию при следующем парсинге, или же сохранять в одну папку все изображения - это было бы замечательно.
     
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Ссылки недоступны для гостей - смотрите макрос 12
    HTML:
    IMAGESNAMES_[INT_ID]
     
  6. discoid

    discoid New Member Пользователи

    Регистрация:
    8 дек 2011
    Сообщения:
    3
    Хотелось бы, чтобы картинки не просто грабились, а "регистрировались" (привязывались) к своей новости в медиабиблиотеке ВордПресса. И чтобы при эксорте в Вордпресс т.н. миниатюра формировалась
     
  7. textSale

    textSale New Member Пользователи

    Регистрация:
    11 дек 2011
    Сообщения:
    1
    Здравствуйте. Посльзуюсь программой и впринципе доволен. Но если бы следать один инструмент, то ContentDownLoader стал бы наверное самым лучшим парсером в мире:)

    Идея такова - сделать двойной парсинг. Просто на страницах есть ссылки на весьма заманчивые страницы (обратная связь с организацией, показать на Яндекс картах, показать скриншоты, и т.д) - а это очень ценная информация.

    Реализация задумки:
    Допустим в каждой границе парсинга сделать дополнительную настройку - извлечение урл. адреса из кода границы.

    Далее, парсер делает двойной парсинг, тоесть сначала парсит основную страницу, а затем переходит по ссылке(которую он нашел в доп.настройке границы) - и там уже мы дополнительно настраиваем что спарсить.

    Результат дополнительного парсинга можно будет вставить в Шаблоне вывода.

    Думаю функция будет полезна всем:)
     
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте, такая функция уже давно есть (макрос шаблона вывода GETMORECONTENT):
    Ссылки недоступны для гостей
    Если что будет непонятно - обращайтесь, поясню.
    Удачной работы!
     
  9. Benjamin Coleman

    Benjamin Coleman New Member Пользователи

    Регистрация:
    23 окт 2010
    Сообщения:
    152
    Обнаружил такую багофичу. В редакторе csv есть замечательная ф-ция добавления картинки из google images. При этом сами картинки переименовываются в image[N].jpg. Я столкнулся с такой ситуацией: если картинка не найдена в google images, content downloader через пару секунд останавливается с ошибкой, и парсинг картинок приостанавливается. Т.е. пропуская пару ячеек для которых картинки не найдены, и продолжая парсинг для последующих ячеек, CD начинает именовать новые картинки, нумеруя заново: image01, image02 и т.д. - что приводит к перезаписи предыдущих картинок; это в случае,если не переназначили папку для новой партии картинок. В общем, выпарсить можно, но с большим гемороем (если список большой) и возней с переименованием файлов, папок и т.п.

    Огромная просьба: сделайте переименование картинок по транслиту названия из ячейки 1 (т.е. как в "основном" парсинге) - даже если программа будет останавливаться с ошибкой при ненайденных картинках это избавит от проблем с переименованием картинок.

    upd Сейчас посмотрел: новая версия уже не выдает ошибку. Но пожелание в силе - проще будет собирать базу картинок + seo-эффект от названия файла.
     
    Последнее редактирование: 16 дек 2011
  10. Benjamin Coleman

    Benjamin Coleman New Member Пользователи

    Регистрация:
    23 окт 2010
    Сообщения:
    152
    Да, и можно еще при сохранении csv сделать возможность указывать разделитель (лично я нахожу самым оптимальным такой знак - | ) - постоянно морока с запятыми и точко-запятыми.

    upd Проблема даже вот в чем: те строки (товары) в csv к которым картинка не найдена сохраняются без пустых разделителей, т.е. так:

    "Nokia 9999";image_20.jpg;image_20.jpg;image_20.jpg <---- здесь нашли картинки (несколько раз)
    "Nokia 9999 <---- а здесь картинки не найдены


    Причем, заметьте у товара есть кавычки, а у картинок их нет.

    а желательно так:

    "Nokia 9999";"image_20.jpg";"image_20.jpg";"image_20.jpg" <---- здесь нашли картинки (несколько раз)
    "Nokia 9999";;; <---- а здесь картинки не найдены

    В общем, структура рушится у csv, если не найдены картинки.
     
    Последнее редактирование: 16 дек 2011
  11. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Готово!
    Если хотите получить обновление сейчас, то постучите ко мне, скину файл.
     
  12. Benjamin Coleman

    Benjamin Coleman New Member Пользователи

    Регистрация:
    23 окт 2010
    Сообщения:
    152
    Большое спасибо! :) Уже оценил, всё супер.
     
  13. Weil

    Weil New Member Пользователи

    Регистрация:
    12 дек 2011
    Сообщения:
    7
    Здравствуйте. Прошу рассмотреть возможность добавить в шаблон вывода:

    макрос перемешивания параграфов:
    было:
    <p>text1</p>
    <p>text2</p>
    <p>text3</p>
    стало в случайном порядке:
    <p>text3</p>
    <p>text1</p>
    <p>text2</p>

    макрос перемешивания предложений в тексте(параграфе);

    макрос объединения параграфов: с заданием количества, например по 2-4 или рандомно.

    макрос мешапа: подмешивание кейвордов из файла в текст.

    Возможность использование всех этих макросов в произвольном сочетании, к примеру: перемешать параграфы, объединить, перемешать в них предложения и домешать к ним дополнительных кейвордов.
     
  14. zilon

    zilon New Member Пользователи

    Регистрация:
    24 дек 2011
    Сообщения:
    80
    Здравствуйте, а вы можите сделать импорт в DLE 9.4 ? у меня никак не получается из вордпреса в ДЛЕ постить, я вот тут читал Ссылки недоступны для гостей оказалось, что у всех такое...
     
  15. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Плагин не я писал, разработчик плагина наврятли его будет развивать...
    Думаю, можно прямо при парсинге постить в MySQL базу DLE (Ссылки недоступны для гостей)
    Обращайтесь в ICQ 571-880-051 или Skype (smartbyte_support), дайте доступ к базе DLE, настроим туда постинг....
     
  16. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Пока могу только посоветовать подключить PHP-скрипт, который все это будет делать Ссылки недоступны для гостей
    Так как до Нового Года сейчас немного нерабочая обстановка. Прошу понять...
     
  17. Weil

    Weil New Member Пользователи

    Регистрация:
    12 дек 2011
    Сообщения:
    7
    >Пока могу только посоветовать подключить PHP-скрипт, который все это будет делать Ссылки недоступны для гостей
    Добавьте, пожалуйста, возможность запуска cgi скриптов и win32 приложений, к примеру Зеброид.
     
    Последнее редактирование: 1 янв 2012
  18. zilon

    zilon New Member Пользователи

    Регистрация:
    24 дек 2011
    Сообщения:
    80
    удалено
     
    Последнее редактирование: 25 дек 2011
  19. Weil

    Weil New Member Пользователи

    Регистрация:
    12 дек 2011
    Сообщения:
    7
    Автор Зеброида не против...

    П.С. С наступившим:)
     
  20. zilon

    zilon New Member Пользователи

    Регистрация:
    24 дек 2011
    Сообщения:
    80
    Здравствуйте, а вы можите сделать чтоб можно было удалять часть кода которая заранее неизвестна(через функцию "поиск-замена"). Вот например картинка-ссылка на стороннем сервере хранится и получается

    <a href="http://u.to/RDxIAQ" title="http://pic4you.ru/11703/1360804/" target="blank"><img src="http://pic4you.ru/allimage/y2011/11-04/11703/1360804.jpeg" border="0" alt=""/></a>

    а нужно удалить

    <a href="http://u.to/RDxIAQ" title="http://pic4you.ru/11703/1360804/" target="blank"><img src="http://pic4you.ru/allimage/y2011/11-04/11703/1360804.jpeg" border="0" alt=""/></a>

    или вот ссылка идёт через редирект

    <a href="http://u.to/QzxIAQ" title="http://letitbit.net/download/53524.578796849ac6001edb4ba67fc255/Diego_Brahim_Press_Digital_Basement-Follow_My_Dreams-NUCR034-WEB-2011-TraX.rar.html" target="blank">Одним файлом</a>

    а нужно удалить

    <a href="http://u.to/QzxIAQ" title="http://letitbit.net/download/53524.578796849ac6001edb4ba67fc255/Diego_Brahim_Press_Digital_Basement-Follow_My_Dreams-NUCR034-WEB-2011-TraX.rar.html" target="blank">Одним файлом</a>
     
    Последнее редактирование: 6 янв 2012

Поделиться этой страницей