Предложения по улучшению программы

Тема в разделе "Развитие Content Downloader", создана пользователем Root, 13 мар 2010.

  1. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Добрый день.
    При включенной функции HTMLTOTXT и выключенной/включенной функции загрузки рисунков тег <img src="http://site.ru" alt="" /> не удаляется. приходится в каждую границу прописывать поиск/замена. Просьба, учесть.
     
  2. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.442
    Адрес:
    Latvia
    Что мешает убрать тег из глобальной функции htmtotxt?)

    Дополнительные настройки границ - например первая граница - галочку где ставить htmtotxt и чуть правее есть вызов настройки функции, там указываются теги которые надо оставить.
     
  3. MAX3000

    MAX3000 New Member Пользователи

    Регистрация:
    14 дек 2010
    Сообщения:
    43
    Просьба добавить следующий функционал:
    1. Валидатор html кода.
    2. Для каждой статической границы в функции "html to txt" не помешает отдельный список тегов.
    3. Добавить циклических границ (до 8 штук прекрасно влезет, если кнопки расположить в два ряда).
    4. Добавить группировку циклических границ (2 группы будет достаточно), чтоб можно было отрабатывать алгоритм поочередного вывода границ группы, как <CD_CYCLE_GRAN_ALL!>, для объединенных в группу границ, соответственно добавить теги <CD_CYCLE_GROUP1!> и <CD_CYCLE_GROUP2!>.
    5. Для каждой циклической границы и каждой группы добавить отдельный разделитель.
     
    Последнее редактирование: 7 апр 2014
  4. MAX3000

    MAX3000 New Member Пользователи

    Регистрация:
    14 дек 2010
    Сообщения:
    43
    Добавьте пожалуйста в программу возможность сохранения картинок одной позиции в одну папку при достижении лимита файлов в подпапке (пусть будет установлен лимит в 100 файлов), например в папке уже есть 99 картинок, а в скачиваемой позиции есть 3 картинки, то - или эти все 3 картинки будут сохранены в новой папке (в текущей папке останется 99 файлов), или все будут сохранены в этой же (т.е. в ней будет 102 файла), а сохранение следующей позиции произведется уже в новую папку.

    И было б неплохо распределять сохранение текстовой информации по файлам:
    -- информация о картинках в article_all_1.csv - соответствует папке ../images_1/
    -- информация о картинках в article_all_2.csv - соответствует папке ../images_2/
    -- информация о картинках в article_all_3.csv - соответствует папке ../images_3/
    для облегчения дальнейших операций с файлами.
     
    Последнее редактирование: 8 апр 2014
  5. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.442
    Адрес:
    Latvia
    Это уже давно есть, лимит картинок на каждую папку

    [​IMG]

    [​IMG]
     
  6. MAX3000

    MAX3000 New Member Пользователи

    Регистрация:
    14 дек 2010
    Сообщения:
    43
    Я знаю что есть, но файлы раскидываются по разным папкам - в приведенном выше случае в текущей папке сохранится один файл, а в вновь созданной - два оставшихся --- проверял. А хотелось бы как описано - все файлы из одной страницы были сохранены в одной папке. Ну и соответственно по второй части вопроса - есть разделение файлов по фиксированному количеству строк, а нужно чтоб разделение файлов происходило в зависимости от наполнения папки рисунками - чтоб можно было попарно переносить, задачка конечно неординарная, но позволит экономить уйму времени.

    А по #623 посту не думали? Первый пункт - на многих сайтах попадается корявый код: на одних страницах есть закрывающие теги, на других того же сайта - нет, приходится мудрить регулярками, но не все можно решить данным способом, если есть возможность как-то решить этот вопрос программными методами было б хорошо, если нет, то можно пропустить.
    А вот остальные четыре пункта очень надо!
     
  7. jozess

    jozess Member Пользователи

    Регистрация:
    19 дек 2010
    Сообщения:
    122
    Есть предложение, и реальное предложение. Уже устал от этого. Несколько лет работаю, все время с этим проблемы. http://forum.sbfactory.ru/showthread.php?t=1720

    Мы можем парсить к примеру видеотумбы, где картинка только в категориях. Или же добавлять важные данные, которые предназначены для определенного урл. Первый этап, в повторяющиеся границы парсим урл картинки+урл статьи. Затем загружаем в список ссылок CD:

    1. Ссылки недоступны для гостей
    2. Ссылки недоступны для гостей
    3. Ссылки недоступны для гостей

    Т.е мы будем брать по разделителю ( ; ) сразу 2 параметра, и ничего мешаться в многопоточном режиме не будет.

    Или в списке ссылок сделать кнопку. Подключить файл, и к каждому урл-у будет соответствовать номер строки с картинкой, и естественно удаляться после взятия. В шаблоне вывода, мы будем использовать новый макрос.
     
    Последнее редактирование: 9 апр 2014
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Уж за несколько лет-то можно было бы найти решение)
    То, что вы предлагаете - требование очень и очень редкое. Не нужно плодить маловостребованный функционал в программе.
    Парсинг производите со страниц рубрик, а данные со страниц видео к ним подтягивайте макросом шаблона вывода GETMORECONTENT!
    Если не представляете как - создайте тему, попробуем помочь.
     
  9. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Спасибо! По поводу правки HTML - подумаю, остальное (из того, что вы СЕЙЧАС предложили - делать не планирую).
    PS: Не знаю, какой версией программы пользуетесь вы =), но в моей - последней - файлы из одной страницы ВСЕГДА СОХРАНЯЮТСЯ В ОДНОЙ ПАПКЕ! ИНАЧЕ НЕ МОЖЕТ БЫТЬ! Смотрите прикрепленный к посту проект.
     

    Вложения:

    • files_test.cdp
      Размер файла:
      25,2 КБ
      Просмотров:
      2
  10. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Приветствую!
    Прошу внести корректировку в генератор ссылок.
    Нужно создать добавочный список {num2} на подобии key чтоб иметь возможность генерации динамических списков от единицы до num2
    Например для ссылок мы создаем список соответствия
    site.ru/aaa/page{num2} => num2 = от 1 до 3
    site.ru/bbb/page{num2} => num2 = от 1 до 2
    site.ru/ccc/page{num2} => num2 = от 1 до 5
    либо просто 3,2,5.
    в итоге после генерации мы получаем
    site.ru/aaa/page1
    site.ru/aaa/page2
    site.ru/aaa/page3
    site.ru/bbb/page1
    site.ru/bbb/page2
    site.ru/ccc/page1
    site.ru/ccc/page2
    site.ru/ccc/page3
    site.ru/ccc/page4
    site.ru/ccc/page5
    Либо подскажите, каким образом такой функционал реализуется. Сейчас же использую самописный макрос в екселе.
     
  11. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Привет.

    site.ru/{key}/page{num}

    Где {key} (вводится в кнопке {key}):
    aaa
    bbb
    ccc
     
  12. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    а num руками менять? я говорил про динамический num и привел подробный пример
     
  13. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Ёптваю =)
    Ты что.
    Ссылки недоступны для гостей - указываешь диапазон и шаг.
     
  14. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Мне не нужно оставлять, я думал эта функция, HTMLTOTXT, для этого и существует. Попросил просто включить в нее img который имеет незакрытый тег и сам не удаляется, но...
     
  15. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    В общем ясно, пользоваться своими средствами. Не реализуемо это с помощью того, что есть.
     
  16. jozess

    jozess Member Пользователи

    Регистрация:
    19 дек 2010
    Сообщения:
    122
    Я паршу Зеннопостером такие сайты. Но скорость в 3 раза меньше чем в CD, и настраивать проект труднее. Хорошо, создам тему на примере сайта, попробуем разобраться.
     
  17. MAX3000

    MAX3000 New Member Пользователи

    Регистрация:
    14 дек 2010
    Сообщения:
    43
    В принципе согласен - "файлы из одной страницы ВСЕГДА СОХРАНЯЮТСЯ В ОДНОЙ ПАПКЕ! ИНАЧЕ НЕ МОЖЕТ БЫТЬ!". Тогда задача немного упрощается, ключевым моментом того что я описывал есть создание нового файла (csv) по событию, когда лимит файлов в папке превышен (или будет превышен при загрузке следующего документа, скорее всего сейчас отрабатывается) - получается папка и файл взаимосвязаны. А сейчас лимит файлов в папке и количество сохраняемых строк в файле никак не связаны.
     
  18. MAX3000

    MAX3000 New Member Пользователи

    Регистрация:
    14 дек 2010
    Сообщения:
    43
    А хотелось бы, намного б упростилась работа в программе (все вышеописанное из личного опыта, могу скинуть один из своих проектов, посмотреть, на почту или куда там еще)
     
  19. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Прости, но головой надо пользоваться. Я тебе готовое решение скинул, а для тебя это "не реализуемо". Смысл отвечать на твои вопросы, если ты ответы, данные тебе, отвергаешь =)
    Просто бы взял и попробовал сделать, как я написал выше, чем выдумывать что-то лишнее...
     
  20. Фёдор

    Фёдор Active Member Пользователи

    Регистрация:
    9 фев 2014
    Сообщения:
    167
    Здравия всем!
    Недавнее появление Webapp
    Заложило очень серьёзный потенциал в программу.
    Вернее потенциал у неё был итак огромнейший, но теперь появилась новая ветвь.
    Когда появилась данная функция я сразу же подумал о том, что было бы очень неплохо если бы её можно было использовать не только для парсинга, но и для постинга в соц. сетях, а точнее для максимальной имитации действий человека. Я бы с большим удовольствием использовал её для добавления в друзья и для рассылки приглашений в свою группу вконтакте, одноклассники и так далее.
    Я ещё пока не являюсь обладателем алтимэйт версии, поэтому не знаю насколько реально использовать программу в таких целях уже сейчас, но на днях стану им и первым делом опробую работу WEBapp именно в данном направлении))
    Учитывая уже имеющиеся функции и инструментарий в загрузчике контента, такие как планировщик, авторизация, работа с антигейт и функция вставки текста в определённые поля в WEBapp думаю что программа уже сейчас должна быть способна на реализацию вышеуказанных задач, и поэтому если какие-то дополнительные доработки и потребуются, то совсем незначительные.
    Если всё это реально будет работать, то автор с полной уверенностью сможет позиционировать контент довнлоадер уже не только как загрузчик контента, но ещё и как приложение для работы с соц. сетями и как универсальный эмулятор действий пользователя на различных веб ресурсах.
    В общем направление я считаю очень перспективное во всех отношениях и Вам Сергей однозначно стоило бы обратить на него внимание.
     

Поделиться этой страницей