Предложения по улучшению программы

Тема в разделе "Развитие Content Downloader", создана пользователем Root, 13 мар 2010.

  1. Weetal

    Weetal New Member Пользователи

    Регистрация:
    7 мар 2011
    Сообщения:
    10
    А у меня просьба менее достойная олимпа :)
    Предлагаю сделать возможным добавления *.txt файлов в прокси "на лету" то есть Drag-and-drop'ом по несколько файлов
    Спасибо

    и еще вдогоночку. Не помешала бы кнопочка "удаление дубликатов":)
     
    Последнее редактирование: 24 май 2011
  2. Focus

    Focus New Member Пользователи

    Регистрация:
    4 апр 2011
    Сообщения:
    38
    Адрес:
    Советский Союз
    В продолжение темы о парсинге картинок при использовании макроса GETGOOGLEIMAGE, неплохо бы добавить как опцию приостановка парсинга картинок при бане. Парсил без прокси потихонечку, после 900 картинок видимо гугл меня забанил, а контент продолжал парситься. в результате 1к страниц получились с пустым src
     
  3. boodooboo

    boodooboo New Member Пользователи

    Регистрация:
    15 мар 2010
    Сообщения:
    27
    Подумалось тут мне...
    Сергей, а нельзя ли сделать с ютьюбом такую же штуку, как и с гугл имадж? По ключевому слову искать ролик?
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    С последней версией программы банит?
    Пока можете поставить один поток и паузу между запросами 1000 мс.
     
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Спасибо за мысль, сделаю, что запланировано и возьмусь)
     
  6. Focus

    Focus New Member Пользователи

    Регистрация:
    4 апр 2011
    Сообщения:
    38
    Адрес:
    Советский Союз
    Пасиб, я просто еще не обновился
     
  7. boodooboo

    boodooboo New Member Пользователи

    Регистрация:
    15 мар 2010
    Сообщения:
    27
    Еще предложение по поводу парсинга картинок по ключевому слову.
    Можно было бы сделать, чтобы не одна картинка парсилась, а несколько (указывать опционально). То есть одному по ключу можно сделать галерею картинок.
    Пробовал вставлять несколько макросов GETGOOGLEIMAGE - парсится и вставляется одна и та же картинка.

    Оффтопик: Сергей подумал:"Как же вы меня ззза... мне дороги" :)
     
  8. Focus

    Focus New Member Пользователи

    Регистрация:
    4 апр 2011
    Сообщения:
    38
    Адрес:
    Советский Союз
    А можно ли прикрутить макрос транслитирования, например <TRANSLIT> текст, бла-бла</TRANSLIT> с заменой спец символов или прорбелов другими символами: -_+= и т.п. и возможностью перевода транслитируемого текста в нижний регистр... Вобщем как то так :)
     
  9. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Дополнительные настройки границ парсинга - конвертировать в транслит. Там есть и функция поиск-замены.
     
  10. teoretik

    teoretik New Member Пользователи

    Регистрация:
    5 июн 2011
    Сообщения:
    1
    Здравствуйте, возможно это уже предлагалось, либо уже реализовано и я просто не разобрался.

    Вот 4 пожелания:

    1. - В "дополнительных настройках парсинга" добавить возможность индивидуального преобразования "htm to txt" к каждой конкретной "границе парсинга". Сейчас же, применяется общий фильтр.

    Например - в одной из границ обычного парсинга я выделил часть кода, где мне нужны <li> <ul> теги, но не нужны ссылки и прочие тэги. А для другой границы парсинга - мне наоборот, нужны только <a> ссылки, но не нужны другие.

    2. - Добавить в "повторяющиеся границы" - "номер тега", как это есть у обычных "границ парсинга".

    Возникла необходимость закончить границу "повторяющегося парсинга" именно на втором закрытом диве к примеру.

    3. - Добавить такой же дополнительный функционал к "настройкам повторяющихся границ", какой есть у "дополнительных настроек границ парсинга". И раздельная чистка htm тегов тоже.

    4. - В обработке и импорте контента, в массовой обработке файлов, вкладка "чистка документов", и там: "вырезание частей границы" тоже добавить на каком теге или части закончить это вырезание. (как и во втором пожелании) + так как по-умолчанию это цикл, ввести кол-во повторений на странице, если это возможно.
     
    Последнее редактирование: 7 июн 2011
  11. davinchi

    davinchi New Member Пользователи

    Регистрация:
    9 июн 2011
    Сообщения:
    1
    Доброго для, софт хорош только не хватает трех вещей для полного счастья:

    1.) Добавить такое понятие как subtask! (то есть к уже выпарсеной части документа перейти на дочернюю страницу и допарсить до единого целого... такое есть в вебинфоэкстрактор оч. удобно при составлении проекта...)

    2.) Решить каким либо образом проблему с антиличем думаю тож не сложно чеб грубо говоря при парсиниге или при пост обработке ссылок (go.php?343242423dvvvbcxbxcvbxbx и т.д. по шаблону можно было обработь и получить рельные ссылки тоесть по фильтру заставить контентдаунлоадер пройтись по ним и получить оригинал...)

    3.) Обновить штатный шаблон импорта в вордпрес с 2.0 до 3.0
     
  12. bork75

    bork75 New Member Пользователи

    Регистрация:
    2 сен 2010
    Сообщения:
    97
    Есть предложение добавить "альтернативный" конец и начало.

    Например, мы задали конец границы парсинга, а у половины страниц он отличается. Здесь и пригодится альтернативный конец, если не найдено указанное условие.

    Добавлено:

    Сейчас CD поддерживает макрос

    {1|2|3|4|5}

    Предлагаю, добавить макрос

    {1-5} который будет соответствовать {1|2|3|4|5}
    Ну и с буквами также {a-z}

    В повторяющихся границах:

    Столкнулся с повторяющейся границой вида

    <li class="name1"> , где name1, менялся, т.е. name2, name3 и т.д.

    Нужна поддержка записи вида:

    <li class="*">
     
    Последнее редактирование: 2 июл 2011
  13. Weetal

    Weetal New Member Пользователи

    Регистрация:
    7 мар 2011
    Сообщения:
    10
    Предлагаю увеличть кол-во потоков и сделать функцию плавающей паузы.

    Прописываем основную паузу - 1000мс и в отдельном поле интервал, к примеру, 500мс
    Имеем интервал 500 - 1500мс
     
  14. Triada

    Triada New Member Пользователи

    Регистрация:
    14 авг 2011
    Сообщения:
    3
    Автоматический поиск

    Как по мне, было бы здорово если бы сделать автоматический поиск. Например в маркете 4000 наименований товаров а мне надо 400. Конечно можно добавлять ссылки через "добавить ссылки через браузер" ну уж очень долго получается. А если бы можно было бы, добавил наименования товаров штук 500 - включил кол-во потоков - через время получил ссылки - подредактировал и вперед парсить.
     
  15. GorSite

    GorSite New Member Пользователи

    Регистрация:
    16 сен 2010
    Сообщения:
    9
    Адрес:
    Москва
    Отличный инструмент по работе с csv файлами, спасибо огромное за него вам
    Предлагаю туда добавить такое:
    1. для определенного поля случайная вставка данных из файла, с выбором файла конечно
    2. для определенного поля случайная вставка даты и времени (в заданном диапазоне) для отложенной публикации например
    3. сохранение списка сделанного - чтоб в следующий раз не пришлось опять все прописывать, а сделать 1 раз алгоритм обработки и сохранить

    В самой программе думаю стоит добавить "допарсивание"... сравнивать список урлов в проекте со списком уже спарсенного и парсить только новое.
     
    Последнее редактирование: 26 сен 2011
  16. bork75

    bork75 New Member Пользователи

    Регистрация:
    2 сен 2010
    Сообщения:
    97
    Тоже хотел сказать спасибо за csv обработку - очень полезная фишка.

    Есть простое предложение.
    Добавить, как в зебройде список с часто используемыми регулярками (что бы можно было добавить или удалить) т.е. не нужно вспоминать или писать по-новой - кликнул из списка и сразу вставилось.

    [​IMG]
     
  17. Benjamin Coleman

    Benjamin Coleman New Member Пользователи

    Регистрация:
    23 окт 2010
    Сообщения:
    152
    У меня пожелание по проксям. Мне кажется, не трудно будет реализовать загрузку проксей не списком, а из файла/урла , причем обязательно с временным интервалом. Дело в том что чек проксей и работа с ними - это совсем не забота CD, так как это отдельная длинная работа. Всем известно, что есть сервисы и программы, которые парсят и чекают прокси, предоставляя уже рабочий список. Так пусть CD берет прям оттуда! Это очень насущная проблема у меня, т.к. актуальна она при парсинге оч. больших ресурсов (которые блочат по IP, понятно). И хотелось бы упростить этот процесс и сделать до конца непрерывным.

    И второе пожелание - добавить поддержку socks (думаю, преимущества описывать не надо, и так ясно).

    ps Буду рад, если автор программы будет читать это форум почаще (а то его уже рекламой даже заспамливают)
     
  18. garden

    garden New Member Пользователи

    Регистрация:
    19 фев 2011
    Сообщения:
    2
    Было бы здорово добавить объединение и гибкую визуальную конфигурацию обработки нескольких проектов.
     
  19. bork75

    bork75 New Member Пользователи

    Регистрация:
    2 сен 2010
    Сообщения:
    97
    не раз уже замечал такую штуку - закидываю на парсинг список ссылок а на выходе часть теряется.
    Чем больше проект, тем больше потерянных ссылок

    В последний закинул 130 000 ссылок в конце программа выдала :
    Загружено 129 900 из 130 000, т.е. 100 ссылок потерялись, хотя парсинг был беспрерывный.
    Далее, я нахожу потерянные ссылки, и допарсиваю их.

    Предлагаю добавить в конце список этих недопарсенных ссылок, а то этот поиск отнимает время.
    (Загружено 129 900 из 130 000, недопарсенные 100 - и ссылка на список)


    --------------------------------------------------------------------------------------------------------

    Инструмент слияние двух CSV очень полезный, но пользоваться им не реально на больших проектах.
    небольшие файлы обрабатывает быстро.
    зарядил файл 70к строк - скорость обработки 1% в час. и мощный комп во время работы инструмента подтормаживает.
    Хотя в эксель я делаю слияние листов формулой за 1 мин.
    --------------------------------------------------------------------------------------------------------
    В редакторе csv файлов пипец как не хватает отмены последнего действия.
    Может я конечно не заметил, но ctrl+Z не работает.

    приходится закрывать и по-новой открывать файл.

    Спасибо.
     
    Последнее редактирование: 11 окт 2011
  20. qazarius

    qazarius New Member Пользователи

    Регистрация:
    20 окт 2011
    Сообщения:
    2
    В логе парсинга правой кнопкой мыши, скопировать url-адреса не загруженных документов в буфер
     

Поделиться этой страницей