Предложения по улучшению программы

Тема в разделе "Развитие Content Downloader", создана пользователем Root, 13 мар 2010.

  1. AlexSmv

    AlexSmv New Member Пользователи

    Регистрация:
    8 май 2013
    Сообщения:
    12
    Добавьте пожалуйте в парсер Гугл картинок функциональность обычного парсера, в первую очередь интересует
    1) автоматический бекап отпарсенных ссылок
    2) возможность сохранение списка ключевых слов для найденных и не найденных картинок (не всегда по ключевому слову находятся картинки)
    3) Добавить возможность задавать ключевые слова в формате [Название файла]|[ключевое слово], чтобы спаршенные файлы картинки переименовывались в соответвии с указанным названием
    4) возможность скопировать в буфер отдельнный урл из списка
     
  2. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.442
    Адрес:
    Latvia
    А не легче перейти с такими запросами на границы и там крутить/вертеть как душе угодно?) Осознал это когда заметил как там все просто делается, а самое главное можно сделать как удобно, по разным критериям картинок (дата, лицензия, размеры, цвета и т.д.)
     
  3. Evil_Wolf

    Evil_Wolf New Member Пользователи

    Регистрация:
    28 июл 2013
    Сообщения:
    1
    Нужно больше потоков для парсинга ссылок. Ссылки форума парсятся по 3-4 часа. Ужас простааааааааааааааааааааааааа.
     
  4. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.442
    Адрес:
    Latvia
    Чтобы не было ужаса, читайте инструкцию насчет настройки сканера, что позволит в 50 потоков максимально быстро собрать все ссылки на темы и страницы тем.
    Важным критерием в сканере являются окна
    1. "не добавлять в список очереди ссылки с"
    2. "добавлять ссылки только с"
    3. удалить переменные из ссылок

    [​IMG]
     
  5. Benjamin Coleman

    Benjamin Coleman New Member Пользователи

    Регистрация:
    23 окт 2010
    Сообщения:
    152
    Просьба добавить в функционал программы сохранение не только незагруженных ссылок, но
    "Результирующий документ оказался пустым" из лога.
     
  6. berchuks

    berchuks New Member Пользователи

    Регистрация:
    1 фев 2013
    Сообщения:
    14
    Хотелось бы чтобы программа работала с динамичными URL, то есть обрабатывала редирект, например есть URL: site.ru/1234/ но он при следующем запросе доступен только на site.ru/3548/ со старого URL происходит редирект на новый URL.

    Эта проблема касается популярного web.archive.org
     
    Последнее редактирование: 7 авг 2013
  7. nikolas1612

    nikolas1612 Member Пользователи

    Регистрация:
    27 ноя 2011
    Сообщения:
    439
    вы уверены что не ошибаетесь? программа нормально отрабатывает редирект. напишите в личку конкретный пример проблемы - может, и решим.
     
  8. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.442
    Адрес:
    Latvia
    Предложение к улучшению:
    Добавить дополнительную функцию к "файл с загруженными элементами" (или расширить фильтрацию по списку который пополняется в/от файла)
    Чтобы ориентироваться по уникальным страницам по значению из границы. Выпадающий список границ от которой получаем запись в текстовик.
    Тем самым при парсинге можно будет возможность отфильтровывать по артикулу или названию ....
    Это по сути получается динамический фильтр, который заносит в список уже напарсеное одно из данных.
    п.с. подключаемый текстовик с ссылками конечно хорошее решение и по другому принципу работает, тоесть уже не тратит время на загрузку страницы и пропускает ее, тут скорее всего на фильтры можно надеяться.)
     
    Последнее редактирование: 20 авг 2013
  9. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.442
    Адрес:
    Latvia
    Предложение к улучшению:
    В просмотрщике кода пронумеровать строки, что позволит удобнее ориентироваться в каком месте просматривал в предидущем выделении границ и т.д. А также это позволит совместно посоветовавшись составлять границы.

    [​IMG]

    например в текстовом редакторе пронумерованы линии
    [​IMG]
     
  10. vladm

    vladm New Member Пользователи

    Регистрация:
    3 сен 2013
    Сообщения:
    2
    предложение по новым функциям

    предложение по новым функциям
    1. сделать функцию "случайное перемешивание ссылок" на вкладке контент, что бы спарсеные статьи были в случайном порядке.

    2. сделать замешивание абзацев или предложений, которые брать с других спарсеваемых статей, текст брать тут же из потока, это повысит уникализацию текста.
     
  11. bemermad

    bemermad New Member Пользователи

    Регистрация:
    14 июл 2013
    Сообщения:
    11
    Аналогичная проблема, приходится с помощью повторяющихся границ макросом GETMORECONTENT получать номера телефонов. Т.к. в повторяющихся границах нельзя задать паузу (граница повторяется несколько сотен раз, в границу вложен макрос GETMORECONTENT, который проходит по ссылки и получает номер телефона) то я ловлю бан.

    Большая просьба автору добавить такую возможность, думаю в реализации не очень трудоемка.

    Если, кто находил выход, поделитесь пожалуйста опытом.
     
  12. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Вкладка "контент" - группа "другое" - "пауза"
    Ставьте паузу там, она распространяется и на GETMOREGONTENT
     
  13. bemermad

    bemermad New Member Пользователи

    Регистрация:
    14 июл 2013
    Сообщения:
    11
    Спасибо! Еще поставил в опциях GETMOREGONTENT "в 1 поток".
    Ситуация исправилась, но возникли следующие вопросы:

    1) Распространяется пауза на момент загрузки страницы и запросом макроса GETMOREGONTENT? Есть опасения, что бан ловится в эти моменты.

    2) Есть ли опция для GETMOREGONTENT "приостановить парсинг и возобновить через Х секунд" в случае не загрузки страницы макросом, как это сделано для границ парсинга? Или как это можно сделать, когда GETMOREGONTENT находится в повторяющихся границах. Ссылки не всегда грузятся, и надо в случае не ответа на запрос, повторить его.
     
    Последнее редактирование: 10 сен 2013
  14. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Там все грамотно, пауза выполняется перед каждым запросом GETMORECONTENT.
    Попробуйте сделать паузу еще больше.
    Какой сайт парсите? Может вам лучше сокс прокси использовать и не греть голову?
     
  15. bemermad

    bemermad New Member Пользователи

    Регистрация:
    14 июл 2013
    Сообщения:
    11
    Прокси использовал, не удобно как-то, проверять их надо, медленные, не быстрее чем в один поток со своего адреса парсить получается. Правда платные не пробовал. Но пока нет необходимости, выставил GETMOREGONTENT "в 1 поток" с паузой, пока не банят. Проблема в другом.

    Сервер сайта наверное загружен и страницы грузятся с задержками (или это защита такая), а иногда вообще не получается их загрузить. Поэтому макросом GETMOREGONTENT не всегда с первого раза получается спарсить все данные.

    Если с одним сайтом я вышел из положения используя "Приостановить парсинг при бане ... если ... граница окажется пустой" + "пытаться повторно загружать документы".

    А в этом случае приходится использовать GETMOREGONTENT, так как телефоны находятся по другим ссылкам. Это влечет проекты с пропущенными телефонами.
    Поэтому сейчас делаю в два прохода. Первым проектом собираю все ссылки, а вторым по этим ссылкам парсю телефоны, потом объединяю. Довольно рутинное занятие.

    Очень хочется для макроса GETMOREGONTENT, что-то вроде "пытаться повторно загружать в случае, если граница окажется пустой". Только кол-во повторов надо ограничить, а то проект "зациклится".

    Возможно это в реализации?

    Кстати, тут есть прям хорошее место для этой опции:)
    [​IMG]
     
    Последнее редактирование: 11 сен 2013
  16. Алекса

    Алекса New Member Пользователи

    Регистрация:
    13 авг 2012
    Сообщения:
    20
    предлагаю внести что-нить по типу исполняемого скрипта, например при парсинге выполнять код php//
    т.е. можно былоб брать номер телефона, который выдан картинкой /например как на авито/ передать картинку на лету в антигейт и принять обратно уже готовый циферный номер
     
  17. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Ссылки недоступны для гостей
     
  18. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Спасибо! Учтено!
     
  19. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.442
    Адрес:
    Latvia
    С момента приобретения CD, в надобности подобной функции для макроса getmorecontent не испытывал, изза одной ситуации добавлять функционал который пригодиться только одному пользователю както не логично. Если не ошибаюсь то по описанию именнно для авито.ру подобные попытки делаются чтобы выловить телефонные номера, лучше хорошими проксями пользоваться.
    Но можно было бы попробовать IFNIL
     
    Последнее редактирование: 12 сен 2013
  20. bemermad

    bemermad New Member Пользователи

    Регистрация:
    14 июл 2013
    Сообщения:
    11
    kagorec ошибаетесь. Парсю городской сайт. Если меня не банят, а сайт тормозит последнее время и страницы не в 100% случаев загружаются, это даже при серфинге в браузере проявляется, то как мне помогут прокси? Если я что-то недопонимаю, объясните пожалуйста.

    За совет большое спасибо, IFNIL отлично справляется с задачей!
    Я хоть и просматривал все макросы, но про решение с IFNIL даже и не вспомнил.
    Оказывается нужная мне опция была в программе. Круто, действительно гибкий инструмент.
    Спасибо за труды разработчику!

    Кстати, коль все так говорят про прокси, я что подумал. У меня динамический ip (да и не только у меня). А что, если программу научить перезагружать интернет соединение, в случае бана или запускать например бат-фаил выполняющий его перезагрузку.
    Забанили (или когда одна из границ оказалась пустой) парсинг приостановился на Х секунд, CD перезагрузил интернет соединение, полулучил новый ip, парсит дальше.

    Грубо можно прикинуть, что парсить например 200 ссылок в 50 потоков без пауз + несколько секунд на перезагрузку соединения, получится быстрее, чем парсить в один поток с паузой в 1 или более секунд.

    Жизнеспособный вариант вроде б. Как думаете?
     

Поделиться этой страницей