Предложения по улучшению программы

Тема в разделе "Развитие Content Downloader", создана пользователем Root, 13 мар 2010.

  1. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.442
    Адрес:
    Latvia
    Как вы себе представляете это понадобиться другим кроме вас, ведь там не просто сканирование а еще есть возможность "начать парсинг" по окончанию процесса сканирования. Может лучше для массового сканирования использовать альтернативные решения?)
     
  2. Benjamin Coleman

    Benjamin Coleman New Member Пользователи

    Регистрация:
    23 окт 2010
    Сообщения:
    152
    1. Вместо поля для одной строки сделать листбокс.
    2. После завершения одного входного урла, перейти к следующему.
    2а. Чтобы не перегружать нижний листбокс с результатами можно вообще сделать опцию не отображать его, и писать сразу в файл.
    3. Вроде бы все просто

    "ведь там не просто сканирование а еще есть возможность "начать парсинг" по окончанию процесса сканирования. "

    Просто в галочку сделать: список или один входной. При режиме-списке сделать "Начать парсинг" недоступным.

    Другие решения есть, но CD- сканер/паук так прост эффективен и удобен - что хочется прям тут :)
     
  3. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Кажется это уже извращение. Наверное, вы мало работали с CD, раз думаете, что такие вещи будут целесообразными. Даже с не очень больших сайтов, при сканировании обрабатываются иногда до нескольких миллионов файлов. Работа длиться сутки или более. если зарядить CD несколькими сайтами, то это будет уже монстр.

    Но главный вопрос не этот. Для такого сканирования надо сканер настраивать. Это предполагает, что вы сделате пробное сканирование, разберётесь что фильтровать, что оставить. Далее, надо будет сохранить настройки для 1-го сайта, для 2-го, 3-го. Резон был бы, наверноге, если создать программу сканер, собирающую ссылки. Но ведь для CD сбор ссылок не главная задача, а промежуточная.

    Но, отправим предложение автору, посмотрим его мнение на данный вопрос.
     
  4. zilon

    zilon New Member Пользователи

    Регистрация:
    24 дек 2011
    Сообщения:
    80
    А я тут сайтик спарсил, а он обновился и теперь на нём около 200 новостей новых, а я не знаю какие новости спарсил, а какие нет. Можно ли сделать "историю парсинга" для проекта, чтобы можно было в неё зайти и узнать ссылки на страницы, которые я спарсил, а потом загрузить новые страницы
     
    Последнее редактирование: 25 июл 2012
  5. Benjamin Coleman

    Benjamin Coleman New Member Пользователи

    Регистрация:
    23 окт 2010
    Сообщения:
    152
    Технически, я написал, ничего сложного не вижу в реализации. Суть методы в том, чтобы настроить одни и те же фильтры для кучи сайтов, то есть собирать идентичные страницы для разных сайтов, но с одной структурой/СМS.

    У CD прекрасный и удобный краулер, доделка небольшая, но чрезвычайно перспективная, многие оценят.

    Про миллионы соглашусь, но если корректно настроить фильтры, то все будет намного быстрее.

     
  6. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.442
    Адрес:
    Latvia
    Надо всеголишь подключить текстовой файлик в "файл с загруженными элементами"
    [​IMG]
     
  7. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Да, если однотипные сайты, тогда, конечно. Я говорил с Автором, он обещал подсказать кое-какие моменты, как решить это дело на данном этапе. Кажется, автоматизация пока ещё не получится, придётся менять ссылки вручную.

    Думаю, автор возьмёт на заметку, чтобы на будущее усовершенствовать данный функционал программы.

    Тут трудно согласиться. Опыт показывает на другое, инструмент так работает что независимо от фильтров шерстит сайт целиком. В список они не попадают, если фильтры настроены, а вот пройтись по ним сканер всё равно проходит.
     
  8. bork75

    bork75 New Member Пользователи

    Регистрация:
    2 сен 2010
    Сообщения:
    97
    Просьба пересмотреть работу "автоподстановка ключевых слов..." {key}

    url: http://site.ru/{key} диапазон 1 стр. 1 шаг 1

    Если подставлять несколько тысяч ключей, то думает по 10 минут, а если несколько сотен, то вообще залипает на пару часов.

    Сам за пару минут сделал. (эксель + нотепад)

    Может там что сломалось? Нуууу очень долго.
     
  9. Benjamin Coleman

    Benjamin Coleman New Member Пользователи

    Регистрация:
    23 окт 2010
    Сообщения:
    152
    1.Большая просьба прикрутить авторизацию через POST/http непосредственно к сканеру сайтов столкнулся с тем, что это не работает :(

    2. И еще одна вещь: пожалуйста, добавьте данные из сканера сайтов в сохраняемый проект (т.е. приостановил -> сохранил/забекапил-> поехали дальше)
     
    Последнее редактирование: 6 авг 2012
  10. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Всё это уже есть в программе: кнопка авторизация во вкладке контент

    И это тоже реализовано. Сканируете, затем жмёте "остановить", можете окно сканера закрыть, потом открыть ссылки все останутся на месте.
    - либо можете нажать на кнопку "Добавить полученные ссылки к списку парсинга", затем, удаляете добавленное, и сканируете далее. Если не удалили или для достоверности, нажмите по окончании правой кнопкой Миши и выберите "Применить фильтры" и "Удалить дубли". Так, на всякий случай
     
    Последнее редактирование: 6 авг 2012
  11. Benjamin Coleman

    Benjamin Coleman New Member Пользователи

    Регистрация:
    23 окт 2010
    Сообщения:
    152
    Попробую еще раз, но именно со сканером не получалось (парсер - ок)


    Спасибо, знаю и пользуюсь. Но проблема встает на действительно больших списках, там, где уже удаление дублей или фильтры валят ошибками. Поэтому выходом было бы сохранить очередь сканера и перезапустить программу (имеются небольшие утечки памяти, что нормально - в этом бы случае памяти взялось при перезапуске меньше, и уже можно было бы как-то разгрести базу). По моему опыту проблемы начинаются на расходе больше 900 мб. То есть цель данного действа - не про*рать насканенное за ночь, когда утром видишь перерасход памяти и error'ы такие, что даже в буфер не скопировать ссылки.

    Вариант. Можно просто сделать кнопку "Сохранить все ссылки в txt", как вариант. Да, у меня большие сайты бывают :eek:
     
  12. bork75

    bork75 New Member Пользователи

    Регистрация:
    2 сен 2010
    Сообщения:
    97
    Benjamin Coleman, недавно миллионную базу парсил, всё очень стабильно работало в плане расхода памяти и процессора.
    CD пару суток работал, ос xp.
    Распиши подробнее, что там у тебя за проблемы и какая операционка?

    Сам только замечал проблемы, если потоков много, но в основном сам донор начинал подвисать, поэтому всегда не больше 5 потоков пускаю.
     
  13. Benjamin Coleman

    Benjamin Coleman New Member Пользователи

    Регистрация:
    23 окт 2010
    Сообщения:
    152
    OC Win 64, 8 гб на борту, 4-я ядерный Phenom. Сканю в 10 потоков.

    Я не говорю, что часто бывают такие проблемы, просто замечал, что если идет перерасход памяти >900 мб, то можно ждать падания. Поэтому я за такое сохранение данных..
     
  14. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Что-то вы всё никак не хотите в программу смотреть. Прежде всего, в сканере сайтов уже есть кнопка "Сделать бэкап", второе, перегрузка памяти,- смотрите, оптимизируйте свой Windows. Третье,- программа рассчитана на парсинг не более 1 млн. ссылок. Переборщили, не сохранили, что ж тут поделаешь,- никакие ресурсы не бывают неограниченными.
     
  15. Benjamin Coleman

    Benjamin Coleman New Member Пользователи

    Регистрация:
    23 окт 2010
    Сообщения:
    152
    Вот хочется более приблизиться к неограничености, т.к. не вижу в 2012 году никакой проблемы сохранить более миллиона строк в текстовый файлик :)
     
  16. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Хорошее желание. Это в связи с "концом света" 2012, хочется успеть всё спарсить?
     
  17. bork75

    bork75 New Member Пользователи

    Регистрация:
    2 сен 2010
    Сообщения:
    97
    Если хочешь спарсить, например 2 миллиона ссылок в 10 потоков, то можешь запустить две копии CD в каждом по 1м. и парсить в 5 потоков.

    Да и любая программа с таким количеством строк на одном листе съест много памяти.
     
  18. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Неограниченные возможности не может предоставить ни одна программа. Даже на компьютерах ЦРУ и Пентагона, а уж на наших, можно только мечтать
     
  19. zilon

    zilon New Member Пользователи

    Регистрация:
    24 дек 2011
    Сообщения:
    80
    А можите сделать так чтобы коментарии от в контакте отображались? Они не индексируются поисковиками, то есть уникальный контент :) я хотел их спарсить, например от сюда Ссылки недоступны для гостей захожу, а они не отображаются, я во встроеном браузере скрипты включил, но они всё равно не отображаются...
     
  20. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Используйте плагины Firefox HttpFox и LiveHttpHeader для отслеживания ссылок или скриптов, которые подгружают страницы. Дальше,- проще. Вот тут Ссылки недоступны для гостей.
     

Поделиться этой страницей