Предложения по улучшению программы

Тема в разделе "Развитие Content Downloader", создана пользователем Root, 13 мар 2010.

  1. seokotik

    seokotik New Member Пользователи

    Регистрация:
    14 окт 2012
    Сообщения:
    6
    Есть проблема с чекбоксом "останавливать парсинг в случае бана".
    Он срабатывает только при парсинге гугла, потому что тот программа при бане отдает Невозможно загрузить страницу и т.д
    А вот при парсинге яндекса и бане отдает результирующий документ оказался пустым и продолжает парсить, удаляя ссылки впустую.
    Не помогает и фильтрация по слову на странице, потому что если CD и видит что страница отфильтрована он не может остановить парсинг.
    Прошу посмотреть, потому что я уверен это важно не только мне.
    Спасибо.
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Спасибо! Учтем.
     
  3. kavi

    kavi New Member Пользователи

    Регистрация:
    15 янв 2013
    Сообщения:
    3
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Content Downloader 3 версии 3.11 (14.01.2013):

    - Доработана функция "приостановить парсинг в случае бана" (отныне "приостановить парсинг при бане") при парсинге контента (появилась возможность указать номер обязательной границы парсинга).
     
  5. Rafa

    Rafa New Member Пользователи

    Регистрация:
    25 янв 2013
    Сообщения:
    2
    было бы неплохо добавить автозагрузку проксей из URL, а то прокси дохнут прежде чем успевает выполниться задание
     
  6. ААА

    ААА New Member Пользователи

    Регистрация:
    22 янв 2013
    Сообщения:
    21
    Добавьте плз авторизацию при загрузке проекта. Хотя бы обычную без get запроса..
     
  7. berchuks

    berchuks New Member Пользователи

    Регистрация:
    1 фев 2013
    Сообщения:
    14
    1) При создании файла импорта хотелось бы чтобы программа запомнинала ранее использованные настройки, а именно: путь сохранения, чек бокс открывать папку по окончании, максимальный размер файла (kb).

    2) При генерировании html сайта, файлы создаются в .htm а не в .html ? И почему я не могу использовать теги несколько раз, например тег <CD_TITLE!> я хочу поставить в title, description и заголовок статьи.
     
  8. ivapro

    ivapro New Member Пользователи

    Регистрация:
    11 фев 2013
    Сообщения:
    3
    видео по парсингу сайта auto.ru устарело. какие будут советы по парсингу?
     
  9. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.442
    Адрес:
    Latvia
    парсить мобльную версию
     
  10. yad2000

    yad2000 New Member Пользователи

    Регистрация:
    21 фев 2013
    Сообщения:
    9
    сделал несколько картинок.
    Это те моменты, с которыми я столкнулся на сегодня (после 1 недели эксплуатации программы)

    Переименование картинок.PNG

    повторяющиеся границы.PNG

    редактор шаблона вывода.PNG

    фильтры ссылок.PNG
     
    Последнее редактирование: 21 фев 2013
  11. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.442
    Адрес:
    Latvia
    yad2000, ваши требования описанные на скриншотах реализуемы стандартными функциями и чего если не хватает то можно реадизовать подключением php скрипта.
    [​IMG]

    и т.д. например htmtotxt не нужен в повт. границах потомучто это обрабатывается в последующих этапах.
     
  12. yad2000

    yad2000 New Member Пользователи

    Регистрация:
    21 фев 2013
    Сообщения:
    9
    Во первых это не требования, а пожелания.
    Во вторых в выходном прайс листе (для Excel) не нужны PHP скрипты, т.е. как их там использовать?
    В третьих не все что указал решаемо тегом IMAGENAMES или другими (например условия для вывода результатов). Или заблокировать один или несколько из циклов в повторяющихся границах по ключу.

    Если развивать эту тему, было бы хорошо получить доступ к массиву <CD_CYCLE_GRAN_1!> по элементно, т.е. <CD_CYCLE_GRAN_1![1]>,<CD_CYCLE_GRAN_1![2]>....<CD_CYCLE_GRAN_1![length]> и т.д. и т.п.
    Т.е. начать делать своего рода язык программирования для результатов парсинга.

    В четвертых еще один скрин - пожелание.... замучился уже (причем пробелы не учитывались бы как в ключе поиска так и в результате парсинга, а замена происходила так, как указано после символа "|")


    Доп настройки границ.PNG

    На сколько я понимаю, вы делаете программу не только для злостных админов?
    Конечно вы можете выкинуть все пожелания в топку. Ваше дело, т.к. программа ваша. Я просто пользователь который купил 2 ключа, и хочу чтобы программа делала "немыслемые" операции за смешные деньги. )))
     
    Последнее редактирование: 21 фев 2013
  13. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.442
    Адрес:
    Latvia
    Сергей Зайковский занимается разработкой и все что связано с программой.
    Я скорее как неофициальная поддержка))

    Повторюсь наверно, но ваши пожелаия/требования решаемы уже тем что имеется в функционале программы (почти все). И не лепите все скопом в одном посте. Предлогаю в отдельной теме решить любой отдельный вопрос касаемо пожелания, поскольку это похоже на "решение проблем" а не "новое пожелание"
     
  14. alamina.moon

    alamina.moon Модератор Команда форума Модератор

    Регистрация:
    14 янв 2013
    Сообщения:
    214
    А можно поинтересоваться для чего вам доступ к этому как Вы выразились массиву?
     
  15. alamina.moon

    alamina.moon Модератор Команда форума Модератор

    Регистрация:
    14 янв 2013
    Сообщения:
    214
    Давайте реализуем два и более {skip} в граница парсинга.... ну очень полезная будет фича!
    Например можно будет парсить повторяющиеся границы как захочется причем делать это через обычные границы...

    Вот идет например код:

    трололо текст трололо
    трололо текст 2 трололо
    трололо текст 3 трололо

    мы бы первый текст спарсили как
    Начало: трололо Конец: трололо

    Второй бы спарсили как
    Начало: трололо{skip}трололо{br}трололо Конец: трололо

    А вот третий бы :)
    Начало: трололо{skip}трололо{br}трололо{skip}трололо{br}трололо Конец: трололо

    Вобщем было бы очень трололошно.
     
  16. nikolas1612

    nikolas1612 Member Пользователи

    Регистрация:
    27 ноя 2011
    Сообщения:
    439
    если такое реализуемо в принципе - однозначно поддерживаю!
     
  17. Dmitriy

    Dmitriy New Member Пользователи

    Регистрация:
    9 янв 2013
    Сообщения:
    13
    Мне вот сегодня тоже двойного {skip} не хватило. Вообще идеально было бы если бы в границах регулярные выражения работали :)
     
  18. olivergreen

    olivergreen New Member Пользователи

    Регистрация:
    28 янв 2013
    Сообщения:
    31
    Сделайте пожалуйста перевод. API Yandex прикрутить к шаблону вывода не проблема, но вот в БД Joomla напрямую парсить нельзя. Остается только CSV. Но вот через PHP парсить в CSV издевательство.
    Да и некоторые другие парсеры уже позволяют сразу парсить с переводом.
    Вопрос очень актуальный.
     
  19. yad2000

    yad2000 New Member Пользователи

    Регистрация:
    21 фев 2013
    Сообщения:
    9
    Небольшой баг в CD: когда делаешь поиск по ссылкам, и если ничего не найдено то информ. окно выводится за окном поиска, и то и другое окно перемещать нельзя, и закрыть инфо сообщение только клавишей Enter можно, может все таки разрешить перемещать окно поиска?
    имею ввиду когда делаешь поиск по CTRL+F.

    или вывод сообщения о "не найденном" ниже или выше окна поиска, чтобы общую организацию процесса не портить

    Еще нужен очень макрос "сортировки элементов повторяющихся границ по алфавиту и по длине" типа
    <ALPHABET_SORT><CD_CYCLE_GRAN_1!></ALPHABET_SORT>
    +
    <LENGTH_SORT><CD_CYCLE_GRAN_1!></LENGTH_SORT>

    Макросы из серии <TOPRICE*x> чтобы поддерживали выражения типа <TOPRICE*x+y> и чтобы поддерживали вложенность: т.е. несколько операций над ценой последовательно от внутреннего к внешнему макросу
     
    Последнее редактирование: 4 мар 2013
  20. yad2000

    yad2000 New Member Пользователи

    Регистрация:
    21 фев 2013
    Сообщения:
    9
    Для гибкости решений задач, чтобы не только через поиск/замена работать.
    Порой категорию/подкатегорию/подкатегорию легче получить именно циклическими границами, а для вывода использовать поэлементно. (и не только здесь).

    Конечно можно разделитель границ заменить на ; - но при большом количестве столбцов теряется читабельность "Шаблона вывода".

    И это не я выразился на счет массива, это просто по сути и есть массив.

    Парсю одновременно 10+ магазинов, и у всех естественно разные настройки, но шаблон вывода нужно приводить к одному виду.

    Что замечаю - то и пишу.
     

Поделиться этой страницей