Предложения по улучшению программы

Тема в разделе "Развитие Content Downloader", создана пользователем Root, 13 мар 2010.

  1. ILYAUSA

    ILYAUSA New Member Пользователи

    Регистрация:
    15 май 2022
    Сообщения:
    4
    Здравствуйте!
    А есть ли возможность загрузить сразу свой CSV файл и программа сразу поймет что и куда?
    Я просто новенький, прошу прощение за тупость если что!
    (я пожалел что купил на самом деле) Ничего не понимаю. Вроде вижу штука реально мощьная и функциональная. Но проще выучить Питон или PHP чем разобраться в ней.
    Где уроки для чайников? У вас все уроки запутанные писец как. Прям бук расхерачить хочется.
     
  2. Klau

    Klau New Member Пользователи

    Регистрация:
    21 апр 2017
    Сообщения:
    1
    Пришлите пож стоимость.
     
  3. romansw

    romansw New Member Пользователи

    Регистрация:
    10 фев 2022
    Сообщения:
    2
    Доброго дня!
    Есть 2 момента в программе, на которые обращаю внимание во время использования:
    1. Синхронность выполнения макросов дополнительных запросов (когда на парсинг одной ссылки уходит более 1-го запроса) -- при установлении N-го числа потоков парсинга -- они исполняются параллельно и контекст выполнения на ядре процессора переключается на ожидании HTTP-ответа. Но при использовании нескольких макросов дополнительных заросов (PHP_SCRIPT/GETMORECONTENT), то вся следующая линейка запросов исполняется последовательно. Учитывая, что имеется сложившаяся последовательность выполнения макросов, можно внедрить конкурентное переключение контекста выполнения на ядре процессора (на манер asyncio в python).
    2. Динамические границы парсинга -- как воздуха не хватает возможности указать контент в динамических границах -- как пример -- динамические границы внутри повторяющихся границ -- указание того факта, что динамические границы должны строиться внутри повторяющихся границ.
     
    iam9ripe и kadishev1997 нравится это.
  4. rushmessiah

    rushmessiah Member Пользователи

    Регистрация:
    14 дек 2016
    Сообщения:
    25
    Добрый день.

    Просьба добавить макрос [GENERATE2], выполняющийся после [MATH] и макросов условий ([IF1] и [CHECKENTRY])
     
    kadishev1997 нравится это.
  5. Alex0690

    Alex0690 New Member Пользователи

    Регистрация:
    4 ноя 2018
    Сообщения:
    1
    Город:
    Moscow
    В этой жизни все познается логикой и усидчивостью, так что не надо на разраба тут гнать, он и так предоставил Вам такой мощный инструмент за крайне скромную сумму (я знаю о чем говорю, окупает себя после первой заявки от клиента на парсинг). Уроки составлены крайне корректно и в точку по типовым вещам, которые встречаются в работе.
    Я тоже много чего не понимал в начале (года три-четыре назад), но осознанный и терпеливый подход к изучению через практику мне помог освоиться в функционале, чего и желаю Вам!
     
    Последнее редактирование: 22 июн 2022
    Serheo, Trenikola, Mak4ra и ещё 1-му нравится это.
  6. Mak4ra

    Mak4ra New Member Пользователи

    Регистрация:
    6 дек 2017
    Сообщения:
    5
    Город:
    Москва
    Добрый день!
    Было бы очень удобно, если бы в настройках макроса DOWNLOADFILE при включенном чекбоксе "вставлять макрос <DOWNLOADFILE> в атрибут HREF каждого HTML-тега A" была бы возможность задавать расширение для файлов, которые необходимо скачивать (pdf или doc, например), либо возможность игнорировать html-ссылки и скачивать только файлы.
     
  7. kadishev1997

    kadishev1997 Well-Known Member Пользователи

    Регистрация:
    27 мар 2019
    Сообщения:
    310
    Здравствуйте!
    В WBAppCEF - в макросе [GETREQUESTHEADERS] хотелось бы видеть возможность указывать те заголовки, которые не нужно передавать в headers.

    В частности, это Accept-Encoding: gzip, deflate, br (очень часто он не корректно работает с сайтами, где нужна авторизация через WBAppCEF, а получать параметры нужно).

    Да, конечно можно указать все параметры, которые необходимы, но бывает так, что некоторые параметры появляются новые (например у Aliexpress), за которыми не уследишь, а менять их тогда приходится каждый день
     
  8. iam9ripe

    iam9ripe New Member Пользователи

    Регистрация:
    12 май 2022
    Сообщения:
    21
    Город:
    Москва
    Добрый день!
    Уже в который раз натыкаюсь на невозможность, обновления Cookies во время запроса при парсинге.
    Если раньше это не особо нужно было, то сейчас уже каждый 2-й сайт который не хочет, что бы его парсили, при каждом запросе обновляет параметры Cookies.
    Но я не нашел, как получить Cookies которые сервер вернул при запросе, без отдельного запроса типа [GETRESPONSE(GET_COOKIE)]<CD_DOCURL!>[/GETRESPONSE].
    При использовании такой конструкции слетает авторизация, потому, что кука предыдущего запроса, не была отправлена на сервер, и сервер понимает, что его парсят.
    На сегодня уже имею штук 15 сайтов которые так делают, из тех заказов которые получил.
    Прошу Автора добавить возможность работы с поведением Cookies в окне HTTP-HEADERS например.
    И если Автор сможет, то добавить возможность раскладывать куку на внутренние значения key:value, для обновления не всей куки, а только той части которую сервер обновил, в противном случае, так же слетает авторизация, по почине того, что кука не обновляется, а перезаписываться ответом от сервера [SETCOOKIES][GETRESPONSE(GET_COOKIE)]<CD_DOCURL!>[/GETRESPONSE][/SETCOOKIES], а в нем только обновление куки. Из за этого часть запросов улетают в редирект на начальную страницу, вместо загрузки запрошенной или как писал ранее слетает авторизация.

    P.S. Прошу автора обратить на это сообщение внимание, потому как данную функцию реализовать при помощи Вашей программы невозможно, либо не описано ни в одном доступном источнике информации.
    P.P.S. Программа приобреталась для работы, а в связи с вышеуказанной проблемой, теряются заказы на работу, что не есть гуд. Все остальные функции, ну или большинство пока удается реализовать при помощи PHP.
    P.P.P.S. Заранее благодарен, за положительное решение данной проблемы. :)
     
    Последнее редактирование: 1 авг 2022
  9. iam9ripe

    iam9ripe New Member Пользователи

    Регистрация:
    12 май 2022
    Сообщения:
    21
    Город:
    Москва
    Все можно, если очень захотеть!
    Нашел я как сделать правда только через WEBACEF. Мало того есть сия функция и в документации (Ссылки недоступны для гостей), пишу специально для тех кто как я ( в танке ).
    Принципиально все просто:
    [WAIT]:1000
    [GETREQUESTHEADERS]:all||| часть url по которой идентифицируем наш запрос в котором брать headers
    [WAIT]:1000 - это обязательно ( иначе половина запросов не передаются .... )
    [REFRESH] - обновляем страницу
    [WAIT]:3000 ждем обновления, обычно 3-5 сек ( но есть сайты и по 10-15)
    [GETREQUESTHEADERS_APPLY] - - передаем все в ContendDownloader

    Вот и все.
    Всем удачных парсингов !!!!

    Создателю РЕСПЕКТ !
     
    Slavikprof и kagorec нравится это.
  10. Avem

    Avem Member Пользователи

    Регистрация:
    30 дек 2020
    Сообщения:
    33
    здравствуйте Сергей. Хотел сделать предложение дополнить функцию перерыва между запросами не фиксированным значением а переменным. Например хотелось бы там где в программе задается пауза между запросами указать например от 6000 до 25000 мс и чтобы в случайном порядке менялась задержка для симуляции реального посетителя. Надеусь изложил четко :)
     
    iam9ripe нравится это.
  11. archiver

    archiver Member Пользователи

    Регистрация:
    22 фев 2017
    Сообщения:
    19
    Всегда было:
    123.png
     
    iam9ripe и Avem нравится это.
  12. Stan

    Stan Active Member Пользователи

    Регистрация:
    15 июн 2011
    Сообщения:
    478
    Здравствуйте.
    Что ожидать клиентам ? Обновлений нет уже с марта. Поддержки на форуме от root тоже нету. Хотя бы иметь возможность пользоваться тем что есть. И то ладно.
     
    ippa и archiver нравится это.
  13. iam9ripe

    iam9ripe New Member Пользователи

    Регистрация:
    12 май 2022
    Сообщения:
    21
    Город:
    Москва
    Всех приветствую !
    Макрс [TEXTEND] не работает в конструкциях (reuters.com/markets/*/*/[TEXTEND] или reuters.com/markets/*/[TEXTEND]):
    Набор ссылок:
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей

    Ничего не фильтруется :( возвращаются все ссылки.

    Просьба проверить и исправить.
     
  14. iam9ripe

    iam9ripe New Member Пользователи

    Регистрация:
    12 май 2022
    Сообщения:
    21
    Город:
    Москва
    Приветствую !
    Обнаружилась проблема парсинга JSON формата.
    В проекте первые 9 ссылок, HANDLEJSON не парсит (хотя LIST внутри работает ), при этом с 10 по 12 ссылки этот же скрипт парсит 100% нормально.
    На самом деле в проекте более 1 млн ссылок и всеони прекрасно отрабатываются скриптом, и порядка сотни вот такие как первые 9 шт. Я не смог понять причину по которой, HANDELJSON не смог разобрать данный JSON.
    Сам JSON вырезан правильно, внутри полностью корректен и проверен как разными программами так вручную.
    Есть большое подозрение, что это ЖУК(БАГ)!

    Если есть возможность глянуть хоть одним глазком, был бы премного благодарен!

    П.С. Может кто еще сталкивался с таким?
     

    Вложения:

    • bloomberg.cdp
      Размер файла:
      69,2 КБ
      Просмотров:
      2

Поделиться этой страницей