Предложения по улучшению программы

Тема в разделе "Развитие Content Downloader", создана пользователем Root, 13 мар 2010.

  1. green

    green Active Member Пользователи

    Регистрация:
    25 окт 2017
    Сообщения:
    75
    Добрый день
    Для макросов [HORIZTABLE] и [VERTTABLE] существует дополнительный параметр [MIN]
    Возможно ли по аналогии сделать параметр [MAX], т.е. максимальное количество ячеек в ряду или в столбце?
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Замените файл Content Downloader.exe (в папке с программой) этим файлом:
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 10 постов.**
    Ссылки недоступны для гостей

     
    kagorec и kadishev1997 нравится это.
  3. kadishev1997

    kadishev1997 Well-Known Member Пользователи

    Регистрация:
    27 мар 2019
    Сообщения:
    310
    Отличная доработка. То, что нужно. Большое спасибо! :)
     
    Root нравится это.
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Замените файл Content Downloader.exe (в папке с программой) этим файлом:
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 50 постов.**
     
    green нравится это.
  5. green

    green Active Member Пользователи

    Регистрация:
    25 окт 2017
    Сообщения:
    75
    Премного благодарен

    Файл заменил.. Но почему-то [MAX] не работает
     
    Последнее редактирование: 18 сен 2020
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Приложите проект с одной ссылкой, где видно, что не работает.
     
  7. kadishev1997

    kadishev1997 Well-Known Member Пользователи

    Регистрация:
    27 мар 2019
    Сообщения:
    310
    Доброго дня!
    В авторизации (ctrl+k) во вкладке "передача Cookie и HTTP заголовков из WBAppCEF" сделать возможность авторизации через прокси (как это сделано в виде кнопки "Использовать прокси" во вкладке "Авторизация методом POST".

    Для чего: есть очень сложный сайт, который очень не любит роботов (из-за чего очень быстро блокирует, даже если выставлять разные скорости парсинга, паузы между ними и максимально делать человеческие факторы поведения) и очень сильно следит за всеми параметрами, которые передаются через Cookie и HTTP Headers.
    Подставлять разные Cookie с разных браузеров не вариант, выдает либо пустую страницу (пустые данные), либо 451 ошибку (связанную с авторизацией).
    Собственно, вот сам сайт
    И тут остается только один вариант: частая авторизация с мобильными прокси (которые меняют свой IP-адрес каждые 2 минуты). Прокси отработали ссылки, выдали данные, и как только выдало ошибку/блокировку (или пустые данные), менять с поомщью [CHECKENTRY]
    Попытался сделать "костылями" через макросы [WBAPP_F], но т.к. необходимо получать данные через POST-запрос и PHP_SCRIPT, в <HEADERS> срабатывают сначала [COOKIES], а уже после [WBAPP_F] (Который выполняется позже [COOKIES] )

    Под хайдом могу приложить проект, в котором уже есть настройки (по необходимости)
     
  8. green

    green Active Member Пользователи

    Регистрация:
    25 окт 2017
    Сообщения:
    75
     

    Вложения:

    • test.cdp
      Размер файла:
      40,1 КБ
      Просмотров:
      2
  9. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Все правильно работает.

    Вы просили сделать по аналогии с [MIN], я сделал.

    Только вы не разобрались, зачем параметр [MIN]. В итоге проделана лишняя работа.

    Если вам нужно спарсить из таблицы, например, только артикул и ширину, вот способ Ссылки недоступны для гостей
     
  10. green

    green Active Member Пользователи

    Регистрация:
    25 окт 2017
    Сообщения:
    75
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 55 постов.**
     
    Root нравится это.
  11. Denorion

    Denorion Member Пользователи

    Регистрация:
    7 апр 2020
    Сообщения:
    52
    Город:
    Москва
    Добрый день!
    Было бы удобно если бы в списке событий WBAppCEF можно было бы проверять не только переменные VAR командой CHECKVAR но и целочисленные переменные INT напреимер командой CHECKINT.
    Или
    что бы можно было бы увеличивать переменную VAR если она число на +1, что бы при достижении определенного значения выбрасыватсья из цикла.
    В справке нашел только про проверку переменных VAR. Ссылки недоступны для гостей
    Спасио
     
    Root нравится это.
  12. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Замените файл Content Downloader.exe (в папке с программой) этим файлом:
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 50 постов.**
    Код:
    [MAXROWSOUT]3[/MAXROWSOUT]
    2020-09-20_13-28-00.png
     
    green нравится это.
  13. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    В цикле [REPEAT] есть возможность указывать количество повторений.

    Код:
    [REPEAT]:12
    ...
    [/REPEAT]
     
  14. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Вот добавил инструкции по теме вашего вопроса:
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
     
    Denorion нравится это.
  15. green

    green Active Member Пользователи

    Регистрация:
    25 окт 2017
    Сообщения:
    75
    Большое спасибо, это точно нужно
     
    Root нравится это.
  16. StekZ

    StekZ New Member Пользователи

    Регистрация:
    5 дек 2018
    Сообщения:
    18
    Город:
    Краснодар
    Есть ли возможность сделать доработку что бы была возможность запустить парсер при парсинге повторяющихся границ в обратном направлении с применением минимального и максимального количества циклов, что бы первым парсился последний элемент (то есть парсер шел снизу) данный вопрос актуален для парсинга категорий когда необходимо чтобы младшая категория была всегда первая и далее категории по возрастанию, но количество категорий заранее не известно.
     
  17. kadishev1997

    kadishev1997 Well-Known Member Пользователи

    Регистрация:
    27 мар 2019
    Сообщения:
    310
    Здравствуйте!
    Для макроса APPENDSOCSOURCE добавить макрос [COOKIE], чтобы он брал данные COOKIE и добавлял их к общим границам Парсинга.

    Без Cookie (и возможно, в некоторых случаях HTTP Headers) прописывая данные в APPENDDOCSOURCE для Php_script, мы не можем получить необходимых данных и прописать границы Парсинга, когда они так нужны.

    Соответственно, если будут браться Cookie и HTTP Header в Appenddocsource, то все будет работать правильно, и Php_script_0 и Php_script будут работать корректно
     
  18. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Замените файл Content Downloader.exe (в папке с программой) этим файлом:
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 10 постов.**
     
    kagorec и kadishev1997 нравится это.
  19. ITz

    ITz Member Пользователи

    Регистрация:
    31 янв 2020
    Сообщения:
    43
    Город:
    Third Rome
    Добрый вечер,

    в Сканере сайтов крайне необходима передача всех параметров [PARAM] т.е. изначальной полной ссылки, в список незагруженные ссылки когда они по каким-то причинам не загружаются и попадают в этот список.

    также если есть возможность рассмотрите создание опции - auto-retry несколько раз в случае если по каким-то причинам ссылка не загрузилась, либо опцию авто-допрохода ссылок из списка незагруженных ссылок, после прохода сканером всех ссылок из основного списка.
     
    Последнее редактирование: 13 окт 2020
  20. kadishev1997

    kadishev1997 Well-Known Member Пользователи

    Регистрация:
    27 мар 2019
    Сообщения:
    310
    Доброго дня!
    Макрос APPENDDOCSOURCE не обрабатывается (не добавляет код в окне задания границ парсинга) при условии, что в ссылке имеется параметр [BLANK].

    А в списке ссылок есть [PARAM], которые необходимо брать и обрабатывать.

    Ссылки обычно берутся в таком формате
    Хотелось бы видеть возможность добавлять данные макроса APPENDDOCSOURCE в задание границ парсинга, с учетом того, что ссылки будут начинаться с [BLANK] (Дабы не нагружать программу, трафик и ускорить процесс обработки данных.
     

Поделиться этой страницей