Предложения по улучшению программы

Тема в разделе "Развитие Content Downloader", создана пользователем Root, 13 мар 2010.

  1. kadishev1997

    kadishev1997 Well-Known Member Пользователи

    Регистрация:
    27 мар 2019
    Сообщения:
    310
    Здравствуйте!
    Хотелось бы видеть внутри APPENDDOCSOURCE макросы [FILE] и [VAR]/[VARF] .
    [FILE] - нужен для того, чтобы получать данные авторизации с текстовых файлов для PHP_SCRIPT_0 , а [VAR] и [VARF] - для того, чтобы не дублировать одни и те же данные, которые были получены макросом PHP_SCRIPT_0, а вставлять их внутри других макросов (GETMORECONTENT и PHP_SCRIPT)
     
    Root нравится это.
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Замените файл Content Downloader.exe (в папке с программой) этим файлом:
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
     
    ITz, kagorec и kadishev1997 нравится это.
  3. kadishev1997

    kadishev1997 Well-Known Member Пользователи

    Регистрация:
    27 мар 2019
    Сообщения:
    310
    Супер! Спасибо за доработку.
    Отправил небольшой донат на развитие CD и других ваших проектов :)
     
    Root нравится это.
  4. kadishev1997

    kadishev1997 Well-Known Member Пользователи

    Регистрация:
    27 мар 2019
    Сообщения:
    310
    Здравствуйте!
    Столкнулся с таким чудом: некоторые популярные маркетплейсы (многие зарубежные и один из российских) - почему-то включают защиту от парсинга при условии, если в ссылке будет присутствовать какой-то определенный параметр.
    Вот 2 условных примера ссылок (GET-запросов):

    site.ru/category/page?text=123
    site.ru/category/page?text=123&filter=true

    В первом случае, работать будет без проблем, парсинг при многопотоке результаты не блокирует
    Но вот во втором, видя то, что имеется параметр filter=true , сайт начинает включать временную блокировку при работе в многопотоке.
    Пытался ставить меньше потоков, но почти безрезультатно, спасают прокси.

    Так вот: было бы неплохо, если прокси можно было бы включать на определенные "параметры в ссылке". То есть, если тот или иной параметр встретится в ссылке, то нужно включить прокси на эту ссылку и загрузить страницу.

    Встречаю подобное не в первый раз, и думаю, с небольшим промежутком времени будет актуально для каждого, кто пользуется CD. Поэтому, хотелось бы видеть подобную доработку в программе
     
    Trenikola и Root нравится это.
  5. Trenikola

    Trenikola Member Пользователи

    Регистрация:
    8 июн 2013
    Сообщения:
    60
    Я бы еще добавил.
    Мне необходимо включение парсинга с прокси по определенному интервалу времени. Т.е. прокси отработали 3 минуты и пауза на 3 минуты, не сам проект на паузе в интервале, а именно использование прокси по времени. Да и в целом, учитывая новые защиты (напр. Incapsula), было бы очень круто иметь больше настроек работы с проксями
     
    Последнее редактирование: 28 май 2021
    ITz, Root и kadishev1997 нравится это.
  6. Amarous

    Amarous Member Пользователи

    Регистрация:
    19 сен 2012
    Сообщения:
    33
    Добавить возможность указывать имя файла.txt со ссылками не сохраненных элементов (или возможность перезаписывать)
    Сейчас во вкладке отчет можно указывать только галочку да/нет
    при этом каждый раз создается файл.

    я, к примеру, периодически запускаю проект, которому надо пересканировать не сохраненные ссылки в первом прогоне
     
    Root нравится это.
  7. ITz

    ITz Member Пользователи

    Регистрация:
    31 янв 2020
    Сообщения:
    43
    Город:
    Third Rome
    Добрый день,

    похоже, что пришло время создания полноценной x64 WebAPP only версии Content Downloader в 10-15 потоков стабильной работы, с многофункциональной поддержкой прокси и прочих новшеств)
     
    Trenikola, kadishev1997 и Root нравится это.
  8. Bureau

    Bureau Member Пользователи

    Регистрация:
    2 июн 2021
    Сообщения:
    24
    Это всё в целом не имеет смысла, у Incapsula WAF сейчас банит прокси чуть ли не на подсеть, в случае прокси-активности. Столкнулся с этим на Ozon, когда с мобильного не мог зайти на сайт - выдавал "фирменную" заглушку. А вот с мобильного приложения таких проблем не было. Поэтому только чистые прокси (с которыми сейчас дефицит и которые стоят конских денег). Частично спасают мобильные 4G носки (есть в продаже), но как и говорил выше - может баниться вся подсеть на определенное время.
     
  9. ITz

    ITz Member Пользователи

    Регистрация:
    31 янв 2020
    Сообщения:
    43
    Город:
    Third Rome
    нужно сделать так, что-бы капсула думала что мы люди, все же ведь просто, почему когда я сижу на озоне в своем броузере спокойно кликаю часами по любым ссылкам без всякой капчи и прочих неприятностией? думаю нужно копать в сторону задержки, установленных правильных кук, и некоторых поведенческих факторов, а поповоду потоков мне сейчас очень не хватает webapp в 10-15 потоков стабильной работы, хотя для дела и 5 будет достаточно, комп мощный а ссылки через раз загружаются..
     
  10. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    867
    ... да все так просто
    Только антифрод системы палят на раз роботность
     
  11. ITz

    ITz Member Пользователи

    Регистрация:
    31 янв 2020
    Сообщения:
    43
    Город:
    Third Rome
    под этой очень серьезной строкой, имелось ввиду следующее:
    • работа строго только через движок броузера (webapp chrome), никаких индейцев и клеверов эти библиотеки прекрасно подходят для других сайтов и задач
    • работа в 1 потоке 1 сессией, поддержание активной сессии на протяжении всего парсинга а не открытие новых экземпляров webapp (к примеру как вариант открытие новых ссылок в новых вкладках одного окна и постепенное закрытие старых вкладок, после получения и обработки их кода..)
    • отказ от использования пользовательских скриптов javascript и т.п. (это палят сейчас многие сайты, начиная со скриптов на стороне пользователя типа adblock и заканчивая к примеру элементом проверки сообщения [CHECKJSMESSAGE] в MutationObserver)
    • многопоточность с учетом всего написанного, 5 отдельных потоков webapp для начала вполне хватит, а для тестов вполне 1
    • возможность установки cookie, headers, user-agent на каждый отдельный поток webapp
    • возможность установки 1 прокси на каждый отдельный 1 поток webapp, а не 1 прокси на все потоки..
    • возможность установки к каждому отдельному потоку webapp - индивидуального проекта .wbapp
    • потребуется на каждый отдельный поток webapp сделать отдельную вкладку с ссылками, границами и шаблоном
    • опционально создание "умных" задержек, нескольких макросов имитации реальных действий пользователей с рандомными элементами, скроллинга, кликов, открытия случайных ссылок в коде загруженной страницы в новой вкладке и т.д. но здесь опять же надо продумать как делать эти действия не с помощью javascript а по другому "максимально" реалистично для сайта и его систем защиты
    • опционально продумать создание макросов-скриптов для тестов, задержек открытия страниц, оповещения получения блокировок (всплывающих капч) с предложением ввести капчу и продолжить парсинг и прочего
    и последнее защиты типа капсулы работают не для нас как обычных пользователей(потенциальных покупателей), а для не которых "очень умных" команд, которые в наглую каждый день парсят цены, остатки и прочее с маркетплейсов используя при этом более 500 000 прокси а затем продают эти данные своим клиентам..
     
    Последнее редактирование: 5 июн 2021
    Trenikola, kadishev1997 и Root нравится это.
  12. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Если просто удалить параметр filter (со значением) из ссылки, то прокси в этом случае не потребуется?
     
  13. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Добавьте несколько раз по 150 файлов.
     
  14. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Нажмите ctrl+6 (шаблон вывода, который сработает, кода документ не скачан при парсинге во вкладке "Контент") и туда вставьте макросы <CD_DOCURL!> (вывод ссылки документа) и [SAVETOFILE] (запись данных в файл на диске).

    [SAVETOFILE] имеет много опций, справка Ссылки недоступны для гостей
     
    Amarous нравится это.
  15. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Замените файл Content Downloader.exe (в папке с программой) этим файлом
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    2021-06-06_05-47-16.png
     
  16. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Прошу вас поучаствовать в этой теме https://forum.sbfactory.ru/threads/razvitie-ehnkodera-v-funkcijax-poisk-zameny.9562/

    Спасибо...
     
  17. kadishev1997

    kadishev1997 Well-Known Member Пользователи

    Регистрация:
    27 мар 2019
    Сообщения:
    310
    Если удалить - прокси не потребуются, но это уже будет совершенно другая ссылка и будет выводиться совершенно другой контент.
    Параметр filter=true приведен как пример.

    Если более подробно: то к примеру есть маркетплейс, где нужно проводить поиск по всему сайту. При вводе слова (например айфон) - он редиректнет и перекинет в определенную категорию (например смартфоны). Ссылка выглядит подобным образом:
    Тут выдается определенный контент на определенную категорию, и прокси не потребуется.

    Но, если вводить GET-запрос вручную с параметром, где нужно искать по всему сайту, подобно этой ссылке:
    То мы получаем контент, который отличается от ссылки с "...category=smartfony"

    У маркетплейса (в текущем случае category=all) - стоит защита на обработку запросов по всему сайту, и если заряжать их не через прокси - идёт блокировка.
    В таком случае если у ссылки имеется параметр category=all , то требует наличия подключенных прокси, чтобы проводить поиск по всему сайту.
     
  18. kadishev1997

    kadishev1997 Well-Known Member Пользователи

    Регистрация:
    27 мар 2019
    Сообщения:
    310
    Здравствуйте! Добавьте пожалуйста возможность в макросе REPLACE функцию поднятия только первой буквы в регистре
    Аналог [REGUPFIRST] , только внутри REPLACE
     
  19. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Попробуйте
    Код:
    {case_fix}
     
  20. kadishev1997

    kadishev1997 Well-Known Member Пользователи

    Регистрация:
    27 мар 2019
    Сообщения:
    310
    Он исправляет все буквы. А нужно только первую делать заглавной
    upload_2021-6-15_12-35-55.png
     

Поделиться этой страницей