Предложения по улучшению программы

Тема в разделе "Развитие Content Downloader", создана пользователем Root, 13 мар 2010.

  1. qazarius

    qazarius New Member Пользователи

    Регистрация:
    20 окт 2011
    Сообщения:
    2
    Вот что мне надумалось =)

    Добавить возможность подстановки referer
    Так чтобы можно было указать referer:
    1. отдельно для каждой ссылки
    2. для всех сразу
    3. чтобы для каждой ссылки в referer подставлялась стоящая перед ней в списке

    Возможность указания, как бы поточнее выразится, что то вроде начальной границы парсинга
    Тоесть на странице есть к примеру div, выбрать его начальной границей и уже из из этого diva парсить а не из всей страницы.
    Бывают случаи когда ни указание номеров тегов ни повторяющиеся границы не помогают правильно спарсить документ.

    Сделать возможность настроить таймаут соединения и сколько раз пытаться загрузить страницу, прежде чем пометить её как неудачную, чтобы одно задание не приходилось в несколько этапов парсить из-за не прогруженных страниц.

    Добавить настройку сколько строк хранить в логе парсинга, сейчас после 10000 он очищается.
     
  2. bork75

    bork75 New Member Пользователи

    Регистрация:
    2 сен 2010
    Сообщения:
    97
    qazarius начальные границы парсинга - есть такое. Т.е. если нужно парсить не весь документ для повторяющихся, а в определённой области.

    Сначала задаёшь эту границу в "граница парсинга 1" а в повторяющихся границах (справа есть выпадающий список) выбираешь нужный диапазон 1 = граница парсинга 1 и т.д.

    В хелпе есть пример - парсинг ответов с mail.
     
    Последнее редактирование: 22 окт 2011
  3. Benjamin Coleman

    Benjamin Coleman New Member Пользователи

    Регистрация:
    23 окт 2010
    Сообщения:
    152
    Очень хочется, чтобы автор технически усовершенствовал программу:
    1. Добавить загрузку 2-х ядер (delphi-программы нормально перекомпилируются по это требование, дело в среде разработки только, насколько я знаю) - т.к. часто бутылочным горлышком является процессор (у меня загрузка одного ядра только идет);
    2. Поддержку 64-битности - да, памяти (при работе со сканнером) часто не хватает на больших сайтах - при этом потом не могу ни скопировать собранные ссылки, ни сохранить проект, в общем, усилия впустую.
     
  4. bork75

    bork75 New Member Пользователи

    Регистрация:
    2 сен 2010
    Сообщения:
    97
    Уже было пару проектов, где очень не хватало повторяющихся границ.

    Предложение - добавить ещё парочку (сделать 5 шт)
    Спасибо.
     
  5. jozess

    jozess Member Пользователи

    Регистрация:
    19 дек 2010
    Сообщения:
    122
    Добавьте регулярные выражения в редактор ссылок. А то если в на страницах ссылки вида < a href="/desc/elica-space-a-78/"> то при парсинге получается что CD добавляет к ссылке следующее:

    __http://www.site.ru/kata/216/desc/2/desc/cata-tf-5260/

    __http://www.site.ru/kata/216/desc/3/desc/cata-tf-5260/

    __http://www.site.ru/kata/216/desc/4/desc/cata-tf-5260/

    __http://www.site.ru/kata/216/desc/5/desc/cata-tf-5260/

    А должно быть так

    ----http://www.site.ru/desc/cata-tf-5260/
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Пока только парсить в несколько прогонов, например:
    Заголовок;Картинка;цена
    Заголовок;описание;рубрика
    Затем в редакторе CSV файлов (на панели) склеить эти два CSV по заголовку.
     
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    В фильтрах ссылок перевести переключатель в "добавлять следующее" и туда прописать Ссылки недоступны для гостей
     
  8. Benjamin Coleman

    Benjamin Coleman New Member Пользователи

    Регистрация:
    23 окт 2010
    Сообщения:
    152
    Привет. Очень часто бывает нужно использовать одни и те же спаршенные данные в разных проектах. Можно конечно собирать себе в базу данных (локально, допустим)и потом делать из нее выборки, но это немного замороченно.
    Условно говоря, у нас сейчас два часто используемых типа получаемого контента - csv и пофайлово в html/txt. Добустим я напарсил себе базу товаров в csv, залил себе на шоп. А потом решил часть напаршенного залить на блог wordpress - а я для этого уже надо заново парсить пофайлово в html, обрабатывать и лепить из него xml для импорта.
    Вот бы было здорово проложить мостик между двумя представлениями данных.
    Скажем из csv редактора выбираем нужные строки и/или столбцы и экпортим их в файлы - уже для последующей обработки. А разделитель столбца (;) заменяем на <br> или по выбору на что-нибудь иное.

    Еще пожелания по csv-редактору: сделать сортировку a-z на столбце, распространяющуюся на весь документ, как в экселе.
    И еще пожелание - сделать в редакторе undo (ctrl+z) - иногда напартачишь, а назад не вернуть.
     
    Последнее редактирование: 22 ноя 2011
  9. bork75

    bork75 New Member Пользователи

    Регистрация:
    2 сен 2010
    Сообщения:
    97
    1. Чекбокс выбора типа - обычные границы или повторяющиеся

    2. Диапазон контента для повторяющихся задавать справа, а для какой границы его применять указываем в выпадающем списке.

    [​IMG]

    Ссылка на скрин:
    Ссылки недоступны для гостей
     
    Последнее редактирование: 25 ноя 2011
  10. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Пока увеличивать количество повторяющихся границ не стал, но сделал и поддержку {skip} и возможность задавать повторяющиеся границы через инструмент. Спасибо за полезные предложения! Надеюсь, далеко не последние ;)

    Content Downloader версии 24.00 (24.11.2011):

    - Появилась возможность задавать повторяющиеся границы парсинга используя специальный инструмент (кнопки "SET" рядом с повторяющимися границами);
    - Теперь макрос {skip} работает и для повторяющихся границ парсинга.
     
  11. bork75

    bork75 New Member Пользователи

    Регистрация:
    2 сен 2010
    Сообщения:
    97
    Поправил предыдущий скрин.
    Понимаю, что предложение может было интересное, но потребовало бы значительных переделок в интерфейсе.
    Второй вариант даже интереснее - требует добавить только один чекбокс.
     
  12. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Спасибо!
    Со временем просто добавлю еще пару повторяющихся границ парсинга...
     
  13. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Наконец-то решился на добавление повторяющихся границ парсинга (без вас бы так и не взялся за это). Спасибо!

    Content Downloader версии 24.77 (27.11.2011):

    – Теперь в программе можно задать 5 повторяющихся границ парсинга (спасибо Bork75).

    Очень много сил вложил в это обновление. Так как все функции программы взаимосвязаны и для каждой добавленной границы парсинга приходится дорабатывать очень много программного кода.
     
  14. KHV

    KHV New Member Пользователи

    Регистрация:
    15 мар 2011
    Сообщения:
    23
    супер! :)
     
  15. bork75

    bork75 New Member Пользователи

    Регистрация:
    2 сен 2010
    Сообщения:
    97
    Ещё раз спасибо за добавление.
    Из новых предложений.

    1. Продублировать кнопку "Доп. настройки"
    Сегодня помогал человеку настраивать проект, так он даже не догадывался о существовании маленькой кнопочки в углу экрана, которая очень полезна ))

    2. Как насчёт добавить список страниц в настройку границ?

    Это для того, чтобы посмотреть, как будет выглядеть настройка границы для других страниц.
    Бывает, что страницы с виду одинаковые, а теги отличаются.

    [​IMG]
     
  16. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Content Downloader версии 24.87 (27.11.2011):

    - В инструменте задания границ парсинга появилась возможность выбирать другие ссылки из проекта;
    - Теперь авторизация методом POST работает и через https;
    - Множество изменений, дорабок и исправлений.
     
  17. KHV

    KHV New Member Пользователи

    Регистрация:
    15 мар 2011
    Сообщения:
    23
    тоже не замечал. действительно ползная кнопочка. спасибо :)

    хорошее предложение. чтобы много раз не возвращаться на вкладку Контент для проверки других страниц. а еще лучше, чтобы это поле было сворачивающимся-разворачивающимся по клику на кнопку.
     
  18. bork75

    bork75 New Member Пользователи

    Регистрация:
    2 сен 2010
    Сообщения:
    97
    Намного удобнее стало [​IMG]


    Предложение:

    htm to txt - самый полезный инструмент, которым пользуются все, предлагаю сделать его независимым для каждой границы.
    Сейчас настройки общие для всех границ и можно только включить или выключить эту функцию для границы.

    Текст обычно очищают от чужих ссылок, скриптов и т.п.. оставляя только оформление текста. Собрал основные теги по оформлению текста,
    можно использовать этот список по умолчанию. Легче что-то удалить, чем вспоминать и дописывать.

    img
    br
    p
    strong
    b
    i
    em
    u
    ul
    ol
    li
    h1
    h2
    h3
    h4
    h5
    h6
    sub
    sup
    q
    tt
    dl
    dt
    dd
    big
    small
     
    Последнее редактирование: 28 ноя 2011
  19. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Решение уже давно есть. Смотрите тут - Ссылки недоступны для гостей (макрос 8).
    8.) Преобразование html-кода в текст ([HTMTOTXT:][/HTMTOTXT]):
    С уважением к вам, Сергей.
     
  20. bork75

    bork75 New Member Пользователи

    Регистрация:
    2 сен 2010
    Сообщения:
    97
    Частенько сталкиваюсь с такой ситуацией:

    Настроил границы и смотрю, что будет на выходе (в csv), вижу, например лишние теги </p><p> </p><p>
    Пишу в поиске и замене, что их нужно удалить, но при повторной проверке замена не срабатывает.
    Проверяю исходник и вижу, что на самом деле эти теги где-то на разных строчках, между ними пробелы и т.д. т.е. много разных вариантов.

    Предлагаю добавить расширенный тег переноса, для задания границ и "поиска и замены"

    {br+} - всё что угодно или ничего, кроме печатаемых символов

    {br+} - может быть пробел, несколько пробелов, табуляция, переход на новую строку, несколько переходов, всё вместе, ну или отсутствие всего перечисленного.

    Данный пример <p>{br+}</p> будет охватывать такие связки:

    1. <p></p>

    2. <p>
    </p>

    3. <p>



    </p>


    и т.д.
     
    Последнее редактирование: 2 дек 2011

Поделиться этой страницей