Предложения по улучшению программы

Тема в разделе "Развитие Content Downloader", создана пользователем Root, 13 мар 2010.

  1. Love-world

    Love-world Member Пользователи

    Регистрация:
    19 июл 2013
    Сообщения:
    70
    Когда вручную вставляешь картинки (нагугленные или сделанные собственноручно), ибо спаршенные завотемарчены часто, и по одной их переименовывать нереально.
     
  2. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.624
    Город:
    Сочи
    Понял, сделаю.

    PS: А как вы делаете? В Google выбираете картинки, сохраняете их на ПК и вставляете их в таблицу CSV?
     
  3. Love-world

    Love-world Member Пользователи

    Регистрация:
    19 июл 2013
    Сообщения:
    70
    именно), либо по наименованию просто поиск картинки, либо url донора, вставляется в "поиск по картинке" (например при парсинге собираются оригинальные урлы и подставляются в урл запрос йандеха и гуглятся "похожие").. Сизифоф труд тот еще, но оно того стоит. Пакетная обработка (читай замыливание ватемарков) и близко не стояла, но приходится попотеть.. Конечно таким образом слишком большую таблицу быстро не обработаешь.. Да и не всегда находится то что нужно..
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    Спасибо за ваши отклики! :)
     
    Последнее редактирование: 14 дек 2017
  4. dexperanto

    dexperanto New Member Пользователи

    Регистрация:
    21 ноя 2014
    Сообщения:
    89
    Сделайте фильтр прокси.
    Просто зачастую люди берут прокси бесплатных из открытых источников.
    Сделать например, ссылку какого-то неизменного сайта как эталон. К примеру, что на нём определённое количество символов, либо определённый размер или вес страницы.
    И потом через фильтр прокси пропускать.
    Допустим, если кол-во совпадает, то ок, оставляем прокси.
    Если параметры с эталоном не совпали, то в топку его, даже если прокси рабочий.
    А-то бесплатные грешат зачастую подмешиванием рекламы, либо вирусов.
    Собственно, их бы уже можно было в процессе фильтрации отсеивать сразу.
    Файнпрокси бесплатные раньше грешили этим, мучался потом вычищал от вирусов компы.
     
  5. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.624
    Город:
    Сочи
    Ознакомьтесь Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! (второй скриншот)
     
  6. dexperanto

    dexperanto New Member Пользователи

    Регистрация:
    21 ноя 2014
    Сообщения:
    89
    Нет, вы меня не поняли. Вопрос был не про логинирование.
    Допустим, есть страница xxx.net, без прокси под неё настроен проект, в результате работы которого, образно, размер любой страницы поисковой с сайта xxx.net получается 5 килобайт, допустим.
    Мы берём прокси, и чекаем на работоспособность. Если через текущий прокси размер = 5 килобайт, то кладём в список работоспособных. Если больше, то тогда убираем на хрен этот прокси, так как идёт вживление рекламы, либо ридериктный прокси, либо вирусный.
     
  7. dexperanto

    dexperanto New Member Пользователи

    Регистрация:
    21 ноя 2014
    Сообщения:
    89
    И ещё было бы удобно позволить пользователям сортировать по count в отчёте.
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    К примеру, закончил парсить.
    Сделал сортировку по Count, нажал правой кнопкой скопировать прокси-сервера загруженных.
    Чтобы при маленьком count (получен неадекватный ответ с сайта, либо вообще ничего не получено), не использовать потом эти работоспособные с виду (прочеканы только перед запуском) прокси.
    Либо просто потом выделить как-то хорошие ссылки, скопировать их прокси. Дальше уже самим можно вставить в эксель и формулой счётесли посчитать кол-во повторений. К примеру, если у нас 100 прокси, а в проекте 5 тысяч ссылок. Допустим, из 100 работают 56, потом в результате сортировки выяснилось, что 15 из 56 жили и адекватно работали на все 5 тысяч ссылок. Почему бы им не дать ещё 45 тысяч ссылок) И скорость работы увеличится, и ошибок меньше будет.
     
    Root нравится это.
  8. xLime

    xLime Well-Known Member Супер Модератор Модератор

    Регистрация:
    4 сен 2017
    Сообщения:
    314
    То, что вы предлагаете потребует загрузки всего веб-документа, а следовательно и бóльшего времени ожидания.
    Подобную проверку вы можете сделать отдельным проектом с использованием макросов [PROXY] и [DOCSOURCE] в шаблоне вывода.
     
    Последнее редактирование: 15 дек 2017
    Root нравится это.
  9. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.624
    Город:
    Сочи
     
    Love-world нравится это.
  10. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.624
    Город:
    Сочи
    Будет ли достаточно ограничение по максимальному количеству символов в получаемом при проверке прокси WEB-документе?
     
  11. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.624
    Город:
    Сочи
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
     
    Love-world нравится это.
  12. Love-world

    Love-world Member Пользователи

    Регистрация:
    19 июл 2013
    Сообщения:
    70
    Это превосходно!!! Быстро разобрался и успел потестить..
    функция "включиь добавление данных в ячейку", работает толлько при включенной галочке "скачивать картинки", хотелось бы чтобы и урлы можно было через запятую вставлять). Прошу прощение за капитанский вопрос, но не нашел просто "переименовальщик", ткните носом)
    P.S. Есть еще идея по улучшению редактора, касающаяся вывода count вхождений, замененных поиском-заменой, но чувствую что предел моей наглости исчерпан, спасибо вам за ваш труд!
     
  13. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.624
    Город:
    Сочи
    Пожалуйста. И вам спасибо.

    Сделать "переименовальщик" и доработать поиск-замену постараюсь позже.
     
  14. jiptwo

    jiptwo New Member Пользователи

    Регистрация:
    14 дек 2017
    Сообщения:
    2
    Город:
    РнД
    В программе реализована возможность указать номер вхождения границы парсинга 0.1.2.... итд. Было бы неплохо также добавить возможность выбора последнего (last) вхождения границы. Объясню на примере. Имея строку "Снегоуборочная машина HUSQVARNA ST 224 с электростартером 220В (9619100-87)", мы можем вытянуть из нее артикул 9619100-87 в два действия, сначала ограничив парсинг этой строкой используя обычную границу парсинга, далее, используя повторяющиеся границы парсинга, взять текст между скобками. И это работает, пока в названии у нас не встретится еще что нибудь в скобках, например, в случае "Снегоуборочная машина HUSQVARNA ST 224 (мод. 1) с электростартером 220В (9619100-87)" на выходе получим два значения, мод. 1, 9619100-87. В случае с моим проектом, угадать возможное количество вхождений скобок, равно как и вид артикула (будут то цифры, буквы или еще какие то символы), я не могу (более 8000 товаров разных брендов парсим), а другой возможности взять артикул просто нет. Выбор последнего вхождения левой границы парсинга, значительно упростил бы задачу.
     
  15. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.624
    Город:
    Сочи
    Поиск-замена:
    Код:
    ){get}(|{get}[REV]
    2017-12-18_15-48-54.png
     
    jiptwo нравится это.
  16. jiptwo

    jiptwo New Member Пользователи

    Регистрация:
    14 дек 2017
    Сообщения:
    2
    Город:
    РнД
    Root нравится это.
  17. gans

    gans Well-Known Member Пользователи

    Регистрация:
    21 апр 2014
    Сообщения:
    265
    Добрый день!

    Иногда есть необходимость дополнительно парсить данные со станиц, адреса которых заранее неизвестны. Например, контактные данные. Для этого есть отличные макросы EXTRACTEMAILS и EXTRACTPHONES. Проблема в том, что, известен сайт, с которого нужно спарсить, но эти данные могут находиться не на главной странице. Такие страницы обычно включают в себя слово contact(например, site.ru/contact, site.ru/contact-us). Конечно, можно сначала спарсить таблицу с сайтом, автоматически спарсить контакты с главной страницы, потом пройтись сканером - собрать ссылки и дополнить контактные данные. Но, это - головная боль ещё та! Конкретный пример здесь http://forum.sbfactory.ru/threads/sobrat-ssylki-i-dopolnit-fajl.5882/#post-33968

    Предлагаю расширить макрос GETMORECONTENT!
    Сделать возможность сканирования введенного url с настройкой глубины и фильтром. Т.е., например, при задании настроек с глубиной 1 и фильтром contact, GETMORECONTENT сканирует страницы первого уровня, отсеивает страницы, которые не содержат contact. Потом полученный результат можно будет обернуть макросами EXTRACTEMAILS и EXTRACTPHONES.
     
    Последнее редактирование: 20 дек 2017
    Root нравится это.
  18. jozess

    jozess Member Пользователи

    Регистрация:
    19 дек 2010
    Сообщения:
    121
    Добавьте пожалуйста возможность изменять внешний размер окна в меньшую сторону, в предосмотре повторяющихся границ. Сайта не видно, не видно что он взял, приходится закрывать-открывать.

    [​IMG]
     
  19. Djahat

    Djahat Well-Known Member Пользователи

    Регистрация:
    14 янв 2013
    Сообщения:
    271
    Привет Всем Други
    Предлагаю Переключить библиотеку CIS, на библиотеку по умолчанию везде.
    Аргументы: уже при большенстве сайтов, надо включать ее вручную в том числе и в DOWNLOADFILES , может новичкам будет проще жить, опытным думаю все равно
     
    kagorec, Root и Kreol нравится это.
  20. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.624
    Город:
    Сочи
    Здравствуйте.

    Доработал:
    Хоткей ctrl+f3
     
    jozess нравится это.

Поделиться этой страницей