Предложения по улучшению программы

Тема в разделе "Развитие Content Downloader", создана пользователем Root, 13 мар 2010.

  1. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.
    Вот проект для сбора ссылок с Маркета по ключевым словам (для последней версии программы).
     

    Вложения:

  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    1) Меню - файл - загрузить проект
    2) Перейти во вкладку ссылки, нажать F7 (для очистки существующего списка ссылок)
    3) Добавить список нужных моделей (кнопка "{key}") и нажать "добавить ссылки" - "используя диапазон"
    7) Нажать F5 (начать парсинг)

    Если будет банить при парсинге, выставьте значение паузы между запросами от 1000 мс и более.
     
  3. bork75

    bork75 New Member Пользователи

    Регистрация:
    2 сен 2010
    Сообщения:
    97
    Есть отличное предложение (можно в версию EXTENDED)

    Сделать в CD полноценный парсер вордстата.
    Я уже месяц ищу парсер с поддержкой прокси - весь инет перерыл, всё не рабочее.

    парсю магаданом базу на 250k, за сутки максимум 2k слов.
    пауза по 5 сек в один поток, если быстрее бан на полчаса.

    В CD есть поддержка прокси и вордстат уже парсит

    Что нужно доработать:
    Что бы можно было указать количество запросов на одну прокси и после бралась следующая прокси и так по кругу , т.е. пока cd вернётся к первой прокси, получится необходимая пауза.

    Нужно указать количество попыток "ошибки" для прокси, после чего её удалять или лучше отправлять в "отстойник" - где тоже бы хорошо указать время, сколько прокси там просидит (как я говорил, yandex банит не навсегда, а на определённое время)

    Нужно будет подумать над страницами - сейчас парсятся все 40 стр., хотя у запроса может быть всего 1 стр.
    Можно будет добавить условие, типа отсутствие слова "следующая →" и переход но новый запрос {key}

    парсер вордстата реально нужен многим, на форумах полно тем "подскажите парсер, кто чем пользуется..."
    Готов отправить 3000 руб. на поддержку новой функции.
     
    Последнее редактирование: 8 фев 2012
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Вы пробовали использовать список платных прокси с привязкой к IP?
    Как я понял, вы пробовали только бесплатные, с ними Яндекс парсить вообще невозможно!
     
  5. bork75

    bork75 New Member Пользователи

    Регистрация:
    2 сен 2010
    Сообщения:
    97
    Поделись опытом, как и с каким софтом использовать платные прокси для парсинга вордстата?

    Взял в глобател 5 прокси, формат ip;login;pwd;xmllogin;xmlkey

    Но что теперь с ними делать, х.з. :confused:
     
  6. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.442
    Адрес:
    Latvia
    пользуюсь платными проксями AWM, список из 1000 проксей и больше, но это не помогает обойти лимит по запросам в поисковых системах yandex и google, через 600-900 запросов по ключевикам идет каптча
    Есть предположения что алгоритм поисковиков вычисляет по однообразности тематики в ключевиках, пример:
    ... и стандартная перемешка составленных по ним ссылок не помогает.
    п.с. вордстат и прочие сервисы от поисковых гигантов это тоже касается - надо понять по какому принципу вычисляют (если список юзерагент сотня и платные прокси более 1000)
    --
    ключевики подбирал keykollector-ом, и по ним с помощью cd парсил линки в пс из выдачи
     
    Последнее редактирование: 10 фев 2012
  7. bork75

    bork75 New Member Пользователи

    Регистрация:
    2 сен 2010
    Сообщения:
    97
    kagorec, слышал, что капча выскакивает в программах, которые не используют куки. В том же магадане капчу никогда не встретишь, там просто идёт бан по ip.

    А ты чем парсил?
     
  8. OlegT

    OlegT New Member Пользователи

    Регистрация:
    26 дек 2011
    Сообщения:
    1
    В программе есть нужная функция для обработки изображений "удаление тегов изображений, которых нет надиске".
    А нельзя ли добавить возможность не удалять теги отсутствующих изображений, а заменять их на изображение-заглушку (с возможностью указания пути до нее)?
     
  9. nikolas1612

    nikolas1612 Member Пользователи

    Регистрация:
    27 ноя 2011
    Сообщения:
    439
    Предложения по доработке программы

    1. Можно ли в окне планировщика (как вариант - в логе парсинга), после завершения его работы - высветить надпись вроде: "Загружено столько-то элементов. Проектами .....(перечисление проектов либо, как минимум, их общее число)..... не загружено ни одного элемента".
    Смысл в том, чтобы пользователь видел, что у него есть "сбойные" проекты, которые не загружают НИЧЕГО. Пока что программа позволяет отследить только сбойные границы, но не проект в целом. Когда проектов в планировщике 30 и более – делать сверку по логу очень проблематично.
    Живой пример: один из моих проектов перестал находить ссылки на сайте (поменялась структура страницы и ссылок, и все отсевалось фильтром) - а я обнаружил это только через месяц.
    __________________________________________________
    2. Перенести раздел «Фильтрация документов по списку ключевиков» из основных настроек в окно «Дополнительные настройки границ парсинга». Плюсы – до него станет намного легче добраться, и уйдет часть дублирующегося интерфейса. Фактически, в «Дополнительных настройках границ парсинга» появится еще одно окошко для ввода ключевиков и опцией «загружать-не загружать». Все остальное там уже есть.
    __________________________________________________
    3. Раздел меню «Добавить ссылки для парсинга» → «Добавить файлы с диска». На сегодняшний день, добавляет файлы из корня выбранной папки. Очень хотелось бы реализовать опцию «включая подпапки» - чтобы пользователь мог выбрать – добавлять файлы только из корня текущей папки либо все ее содержимое.
    Смысл в том, что когда в папке более 10 каталогов – выбирать каждый из них по отдельности – чудовищный гемор.
    __________________________________________________
    4. Как-то уже поднимал этот вопрос, но, к сожалению, неудачно. Попробую еще. Можно ли как-то автоматизировать последовательность следующих действий:
    - Добавление в проект файлов из выбранной папки жесткого диска
    - последующий запуск этого проекта.
    В идеале - чтобы такой проект можно было поставить в планировщик в одном ряду с другими проектами.
    Программа уже сейчас все это может, но только вручную.

    Автоматизация этих действий позволила бы сразу после парсинга, проводить пост-обработку и фильтрацию только что скачанного материала по заранее спланированной схеме.
    Эта функция настолько удобна и важна – что ее вообще можно было бы вынести в отдельный раздел – «пост-обработка».
     
  10. zilon

    zilon New Member Пользователи

    Регистрация:
    24 дек 2011
    Сообщения:
    80
    А можно програму настроить так, чтобы удалялись или не сохранялись страницы, длина символов в которых меньше определённого значения?
     
  11. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Вкладка "контент" - кнопка "дополнительно" - "минимальная длина статей".
     
  12. bork75

    bork75 New Member Пользователи

    Регистрация:
    2 сен 2010
    Сообщения:
    97
    В режиме "Предпросмотр элемента" - справа у нас окно со списком ссылок, что бы выбрать ссылку, нужно дважды по ней кликнуть - когда нужно посмотреть штук 100 ссылок это начинает раздражать.

    Предлагаю сделать один клик, вместо двух - тогда ещё заработает переход по ссылкам через клавиши "вверх и вниз"

    Второй вариант (как в зебройде): кнопки "вверх и вниз" - перемещать по списку, а "влево вправо" - перемещать по списку с открытием ссылки (сейчас, нажимая "влево вправо" просто перемещается по списку)
     
  13. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Content Downloader версии 31.14 (19.02.2012):

    - Теперь при задании границ парсинга и при предпросмотре результата парсинга контента можно загружать ссылки из списка не только двойным кликом, но и стрелками: влево, вправо, а также клавишей ENTER;
    - Несколько доработок.

    Ссылки недоступны для гостей
     
  14. eleon

    eleon New Member Пользователи

    Регистрация:
    18 фев 2012
    Сообщения:
    37
    есть такая система Maxsite CMS довольно неплоха очень похожа на вордпресс но поинтереснее как по мне (это только мое мнение) вопрос о экспорте в эту систему актуален. (умудрился запостить туда при помощи текст кита у них есть такой себе плагин, если необходимо предоставлю )

    и не обезсудьте создал проект спарсил, обработал страницы, и опубликовал. теперь вопрос на доноре обновилась информация я повторил движения с парсингом остались адреза для парсинга только новые спарсил далее в обработку ,теперь как это не продублировать в проекте который уже выгружал на сайт ткните носом а то я новенький
     
  15. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Это разные задачи. Не для Content Downloader-а. ТекстКит, кажется такие задачи тоже не может решить. А вот в Зеброиде, при публикации по XML-Rpc, можно решить такую задачу.
     
  16. eleon

    eleon New Member Пользователи

    Регистрация:
    18 фев 2012
    Сообщения:
    37
    спасибо конечно за разьяснение , но саму систему возможно и добавить так как она довольнотаки оптимизирована.

    а насчет зеброида я так понимаю это о втором вопросе. тоесть либо зеброид либо ручками отбирать.
     
  17. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Есть возможность обновлять информацию на сайте через Базу данных MySQL.
    Вот тут Ссылки недоступны для гостей. А вот тут - Ссылки недоступны для гостей. Думаю, при желании, можно обновлять и другую информацию, по сходному принципу.

    Полное обновление контента сайта, всё-таки через CD, видимо не получится. Меня вот тоже мучает такая вещь. Это дело можно было бы решить банальным сравнением старых ссылок с новыми. Все совпадающие ссылки, чтобы отделялись, то есть если в новом списке есть старые ссылки, то они должны удаляться, а новые оставаться. В этом случае проблема легко решалась бы. Эту задачу, если имеете навыки работы с Excel, можно было бы решить через эту программу, сравнением списков.

    Надо старый список сохранить, а новый, сравнить со старым так, чтобы совпадающие ссылки удалились, а новые остались. Получили ссылки,- внесли в программу и спарсили только новые товары. Грубый, примитивный метод, но он бы помог решению задачи.

    P.S. Насчёт плагина
    Имеется ввиду встроенная возможность экспорта, или же существует плагин, дающий возможность публиковать напрямую? Если второе, то меня заинтересовало бы.

    И ещё вот такая вещь, которая может помочь в решении задачи
    Взято Ссылки недоступны для гостей
     
    Последнее редактирование: 4 мар 2012
  18. eleon

    eleon New Member Пользователи

    Регистрация:
    18 фев 2012
    Сообщения:
    37
    плаггин для макссайтЦМС он для тексткита его придется дам не вопрос но в фришной версии текст кита нет экспорта в макс цмс он есть только в полной...
    вот плагин для самой ЦМСки
    Посмотреть вложение maxsite.rar

    по поводу при парсинге проекта я знаю как чтоб не парсить старое там все ясно описанно итд... есть файл проекта и подключенный файл и нет проблем...

    а вот с самим контентом буду разбираться. но саму систему можноб было добавить в СД так как в системе есть импорт из вордпресс но он относится еще к ветке 2,0 так что не актуально.
     
  19. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Расскажи другим, как это делается, где этот файл брать, что это за файл, и так далее. Если можно. Или укажи, где почитать подробности.

    Что касается переделки CD или добавления функционала, надо обращаться к Создателю. Думаю, если что возможно, то сделает. Наш CD одна из лучших программ, среди всех, Разработчик постоянно усовершенствует программу. Редкий, и очень работоспособный человек
     
  20. eleon

    eleon New Member Пользователи

    Регистрация:
    18 фев 2012
    Сообщения:
    37
    за основу взят любой сайт в данном случае h_ttp://_minitraktor.com.ua

    у него есть карта сайта хотя это не важно главная задача это
    первое создать папку куда проект вы будете парсить и все файлы настроек будут там храниться.
    второе указать файл с загруженными элементами
    третье настроить фильтр чтоб потом проще было отсеивать.
    изображение прилагаю.

    Ссылки недоступны для гостей

    при повторном сканировании сайта или просто загрузки xml карты сайта вам нет необходимости все настраивать заново у вас есть сохраненный проект. который также отсеет по фильтру все необходимые вам ссылки включая новые , но есть 1 но файл с загруженными элементами когда вы все настроили для парсинга итд.. и ранее спарсили файл записывает адреса ранее спарсеных страних и повторно их не парсит , что очень примечательно.

    вот вы получаете обновленный контен без повторного парсинга всего сайта.

    потому и поднимал вопрос о экспорте в сайты только обновленных страниц, так как когда работаеш со стрницами то там создается уже отдельный файл ( хотя по дате можно отсеять какие вам необходимы статьи и их только пускать в обработку и тд...)

    не претендую на учебник но мне помогает.
    прога бомба автору респект

    есть сайты которые прога просто не видит (rutor.org) к примеру или я не то настраивал но очень странно так как на странице кода нет
     
    Последнее редактирование: 4 мар 2012

Поделиться этой страницей