Предложения по улучшению программы

Тема в разделе "Развитие Content Downloader", создана пользователем Root, 13 мар 2010.

  1. ajivitca

    ajivitca New Member Пользователи

    Регистрация:
    11 июн 2013
    Сообщения:
    39
    Есть надежда, что "задание границ парсинга" не будет ограниченной величиной и будет ограничено только задачей проекта а не желанием автора? Писать скрипты можно и без программы (я имею докидывать парсинг в выходной файл). Хочется ускорения работы. До VisualRipper'а еще скакать и скакать по этому параметру.
     
  2. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.442
    Адрес:
    Latvia
    Ознакомьтесь с макросом GETMORECONTENT, возможно мнение также измениться кому скакать и скакать.
     
  3. alamina.moon

    alamina.moon Модератор Команда форума Модератор

    Регистрация:
    14 янв 2013
    Сообщения:
    214
    Вообще можно не использовать границы парсинга если что, просто режем регулярными выражениями исходный код страницы так как нам нужно :) Конечно метод извращенный но действенный!
     
  4. ajivitca

    ajivitca New Member Пользователи

    Регистрация:
    11 июн 2013
    Сообщения:
    39
    читать документацию умею. с GETMORECONTENT значительно медленнее все забивать и главное - ПРАВИТЬ. зачем плодить одну и ту же функцию? нельзя сделать одну и нормально?

    мы говорим про профессиональный инструмент (которым зарабатываешь деньги, те время=деньги)?

    я не понимаю кому 20 тегов для парсинга магазина (20-50 тысяч позиций) хватит. на детских товарах например вылезает до 40-50 полей.

    если говорить про возможности, то на PHP или PERL то же самое можно сделать. но я так понимаю тут люди которым данный вариант не подходит.
     
  5. ajivitca

    ajivitca New Member Пользователи

    Регистрация:
    11 июн 2013
    Сообщения:
    39
    добавить возможность сканировать локальные сайты (в сканере сайтов и далее). те URL вида "file:///C:/Users/Vasya/Documents/www/grab/site98/www.site98.ru/index.html

    зачем? есть десяток зеркал (обновляемых в любом случае). надо по ним парсить контент. регулярно.

    как применение - грабим часть сайта и по нему настраиваем парсер. чтобы не быть забаненным админом сайта/скриптом/капчей.

    пока походу придется локальные сервера поднимать для этого.
     
  6. nikolas1612

    nikolas1612 Member Пользователи

    Регистрация:
    27 ноя 2011
    Сообщения:
    439
    если я правильно понял, чего хочет автор сообщения - то безусловно мысль очень стоящая. как-то раньше не приходило в голову. если усовершенствовать, доработать и упростить getmorecontent и cyclecontent сделав их гибрид с обычными 20 и повт. 5 границами, то при удачном "скрещивании" потребность в окне границ (20+5) вообще исчезнет. Останутся только 2 универсальных шаблона.

    Мысль-то стоящая, но могу себе представить, сколько это мороки разработчику.
     
  7. alamina.moon

    alamina.moon Модератор Команда форума Модератор

    Регистрация:
    14 янв 2013
    Сообщения:
    214
    Поднимается за 2 минуты...не понимаю смысла тестировать на локале, если боитесь бана то в любом случае вы не поймете защищен сайт от парсинга или нет пока не начнете парсить оригинал, а когда начнете то его получите если не предусмотрите задержек например. Если хотите просто настроить, то для этого подойдет и оригинал, да и прокси никто не отменял, не говоря уже просто о элементарных задержках между запуском потоков.
     
    Последнее редактирование: 14 июн 2013
  8. alamina.moon

    alamina.moon Модератор Команда форума Модератор

    Регистрация:
    14 янв 2013
    Сообщения:
    214
    Есть предложение сделать возможность консольного запуска CD с различными ключами, например с указанием файла проекта, с указанием что в нем делать.

    cd.exe -f trololo.cdp

    То есть перенести В ключи некоторые настройки из планировщика. Пускай даже программа в памяти держит все формы и т.д. то чтобы после выполнения закрывалась.
    Можно будет тогда на крон вешать шикарные скрипты.
     
  9. nikolas1612

    nikolas1612 Member Пользователи

    Регистрация:
    27 ноя 2011
    Сообщения:
    439
    сам давно хотел предложить это, однозначно поддерживаю!!! еще хотелось бы чтобы в стартовом скрипте можно было прописать последовательность выполнения сразу нескольких проектов.
     
    Последнее редактирование: 14 июн 2013
  10. ajivitca

    ajivitca New Member Пользователи

    Регистрация:
    11 июн 2013
    Сообщения:
    39
    непонятно почему до сих пор это не реализовано.
    толком а -автомате- по крону программу невозможно использовать.
    программа написана в чистом windows-way стиле.
     
  11. ajivitca

    ajivitca New Member Пользователи

    Регистрация:
    11 июн 2013
    Сообщения:
    39
    как делать обновленный список парсинга и грабить сайты за 1 проход (по интернету) каждый раз? а если ошибка парсинга и поменяли на сйте что-то координально?! при текущем функционале CD как-то затруднительно. а url http:// ftp:// file:// это как бы стандарт.

    понятно , что можно нагородить еще десяток костылей к программе (автотыкалку мышкой для работы по крону, апач для локального сайта, переключалку проксей с тестом и загрузкой прокси-списков...)

    но всего-то надо выключить windows-style и сделать:
    полную реализацию URL.
    полный импорт конфигураций из файлов по command-line.
    возможность загрузки списка парсинга из файла.
    загрузку прокси списков из файла.

    если что-то возможно сейчас - поправьте.

    а то вроде как и gui есть, а н нет - дописывайте шаблоны.
    вроде как и шаблоны есть, а из вне - не задать через command line.

    Есть макрос FILE, но он мягко говоря "слегка" только выполняет функционал по импорту. Нет общей идеи по работе в "батч режиме".
     
  12. nikolas1612

    nikolas1612 Member Пользователи

    Регистрация:
    27 ноя 2011
    Сообщения:
    439
    2ajvitca
    в программе по моей просьбе несколько месяцев назад была введена функция SCANDIR.
    чем она не устраивает?
     
  13. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.442
    Адрес:
    Latvia
    Ссылки недоступны для гостей
     
  14. ajivitca

    ajivitca New Member Пользователи

    Регистрация:
    11 июн 2013
    Сообщения:
    39
    тем, что ее нет в документации. телепатия не так развита как думают некоторые. ;)

    спасибо. попробую.

    когда же автор возьмется за ум и напишет нормальную (видео зарисовки - для неработающих студентов с кучей свободного времени) документацию.

    удобно конечно всех посылать на форум. "они там сами друг-другу подскажут и документацию за автора напишут.


    наберите SCANDIR в поиске на сайте....

    и вопрос - а зачем стандартные понятия заменять альтернативными вариантами? как я понял это не точный аналог file://
    сейчас гляну. есть ощущение, что не совсем то.
     
  15. alamina.moon

    alamina.moon Модератор Команда форума Модератор

    Регистрация:
    14 янв 2013
    Сообщения:
    214
    Не соглашусь документация довольно полная, по сравнению например с тем же Зеннопостером где телепатия действительно понадобится.
     
  16. nikolas1612

    nikolas1612 Member Пользователи

    Регистрация:
    27 ноя 2011
    Сообщения:
    439
    в программе есть возможность добавления в список парсинга любых файлов с жесткого диска (зеленый плюс - добавить с файлы с диска). насколько я помню - обычное добавление - это файлы из выбранной папки (без подкаталогов). по меню, выпадающему на правую клавишу - можно добавить сразу все файлы в папке и всех ее подкаталогах.

    в силу некоторых причин - мне надо было автоматизировать этот процесс. SCANDIR - указывает программе папку (без подпапок!) на жестком диске которую надо просканировать в поиске файлов для парсинга. т.е. идет автоматический поиск ссылок с жесткого диска без поднятия http-сервера. надо просканировать 10 папок - будет 10 строк начинающихся со SCANDIR. как-то так.

    в принципе, описанная функция имеет смысл только при работе с планировщиком.

    что же касается file:// - тут я вас не совсем понимаю. программа отлично понимает прямые ссылки типа C:\Program Files\НОВОСТИ\блаблабла.txt
     
    Последнее редактирование: 19 июн 2013
  17. bork75

    bork75 New Member Пользователи

    Регистрация:
    2 сен 2010
    Сообщения:
    97
    Не часто, но бывает очень не хватает поддержки более одного {skip} в настройках границ парсинга.

    [​IMG]

    Добавьте, пожалуйста.
     
  18. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.442
    Адрес:
    Latvia
    bork75, как насчет того чтоб заранее такую часть кода поправить регулярками чтоб не пользовать потом skip?
     
  19. ajivitca

    ajivitca New Member Пользователи

    Регистрация:
    11 июн 2013
    Сообщения:
    39
    Самая жесть - это настройка повторяющихся границ парсинга:

    визуализация - только по 5 границам. надо сильно БОЛЬШЕ. лучше - unlim.

    править их (повторяющиеся границы), скажем, когда надо посмотреть все проходы на странице - на автомате (нажав стрелку вверх для поиска в коде) видим только первое вхождение.дальше надо указывать номер вхождения. или гадать."очень удобно".

    5 границ парсинга настраивал 2 дня. пока забросил. вылез глюк и ловить его стало очень сложно (надо еще пару дней... а еще надо добавлять и добавлять границы) за это же время обычных грананиц настроил на 8 сайтов. жесть.

    поиск-замену нельзя отменить для проверки. приходится вырезать/смотреть/вставлять снова. на самом деле лучше бы иметь визуальную поиск-замену. те правим регулярку (или конструкцию из кучи {skip}) и видим что получается. лучше с возможностью сразу пробовать на куче страниц (например кликая по ним из списка).

    и это только по верхам.

    если что-то не так - поправьте. реально убили эти повторяющиеся границы своей недобротой (unusablity точнее).
     
  20. ajivitca

    ajivitca New Member Пользователи

    Регистрация:
    11 июн 2013
    Сообщения:
    39
    SCANDIR можно запихать в планировщик? как?

    file:// имеется аналог http:// . те полностью - со всей структурой сайта. включая вложения и подкаталоги. те сканим не удаленный сайт а локальный (например он зеркалится телепортом или wget'ом). причем, локальный есть и грабится регулярно в не зависимости от граба контента.
     

Поделиться этой страницей