Предложения по улучшению программы

Тема в разделе "Развитие Content Downloader", создана пользователем Root, 13 мар 2010.

  1. kadishev1997

    kadishev1997 Well-Known Member Пользователи

    Регистрация:
    27 мар 2019
    Сообщения:
    287
    Здравствуйте!

    Для макроса APPENDDOCSOURCE хотелось бы видеть дополнение, которое проверяет наличие какой-либо границы, и в зависимости от её присутствия, макрос подгружает/пропускает загрузку дополнительных данных.

    Поясню на примере: есть сайт Яндекс.Маркет.
    У каждого товара присвоено 2 ID: продавца и самого товара.
    Обычно происходит так, что ID товара известен, но не всегда находит стандартным способом, поэтому приходится применять PHP_SCRIPT и искать нужный ID поставщика с помощью POST-запроса, получать его и далее подгружать уже найденный ID стандартным способом.
    Так вот, если товар найден сразу (например, присутствует граница парсинга), то подгрузка APPENDDOCSOURCE не требуется
    Что-то вроде такой конструкции

    Т.е. если граница парсинга присутствует, то загрузку APPENDDOCSOURCE можно пропустить. Ну а если нет, то произвести подгрузку.

    Обычным CHECKENTRY этого нельзя сделать, т.к. макрос выполняется одним из первых, и его доп. подгрузку нельзя как-то пропустить.
    Предложенное решение смогло бы повлиять на него.

    Необходимо для того, чтобы не делать дополнительные GET/POST запросы на сайты, а также ускорить работу с теми, кто часто банит
     
    Root нравится это.
  2. Neutrion

    Neutrion Member Пользователи

    Регистрация:
    13 ноя 2020
    Сообщения:
    42
    Как на счет нового оператора который сможет вывести сумму скачаных файлов с одной ссылки?
     
    Root нравится это.
  3. Konstantsin

    Konstantsin New Member Пользователи

    Регистрация:
    4 май 2021
    Сообщения:
    10
    Довелось только что завершить парсинг 120000 страниц с 1 сайта. Поработал через прокси. Дико неудобная реализация чекера. Чекер начинает работать, когда в парсере заканчиваются прокси. При списке прокси в 10000 и парсинге сайта в 50 потоков это жесть. Предлагаю: сделать чекер прокси фоновым во время парсинга. Чтобы как только в парсере прокси прогорели он подкидывал новую порцию.
     
    gans и Root нравится это.
  4. Vitaliy_S

    Vitaliy_S Member Пользователи

    Регистрация:
    20 янв 2019
    Сообщения:
    29
    Город:
    Уфа
    Добавьте "не жадный" оператор {skip} при задании обычной или повторяющейся границы парсинга. Часто бывает, что граница, которую нужно взять, окружена тегами с динамическими атрибутами. Например,
    HTML:
    <div class="first col-xs-12 col-sm-6 col-md-12 col-lg-6 col-xl-4 post-4181 product type-product status-publish has-post-thumbnail product_cat-clutch has-thumb  instock shipping-taxable purchasable product-type-simple">
        <div>
            ...
        </div>
    </div>
    Здесь в атрибутах можно зацепиться за постоянные классы "product type-product"
    Я указываю в начальной границе <div class="{skip}product type-product{skip}>, в конечной </div> (или [AUTO]div, без разницы)
    И он берет совершенно не те границы Ссылки недоступны для гостей
    А нужно Ссылки недоступны для гостей

    Возможно ли добавить оператор, которые не будет выходить за рамки тега или за рамки какого-то определенного символа? Как аналог регулярки [^<>]*?

    Если нужно, то вот страница Ссылки недоступны для гостей на которой тестировал, нужно взять товары Ссылки недоступны для гостей в повторяющуюся границу.
     
    Root нравится это.
  5. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.640
    Приветствую.
    Было бы неплохо, чтоб списки замен умели подгружаться с файла, сейчас это делается ручками.
     

    Вложения:

    gans нравится это.
  6. Vsevlod

    Vsevlod New Member Пользователи

    Регистрация:
    4 апр 2019
    Сообщения:
    8
    Город:
    Минск
    Хорошо было бы научить скачивать изображения с таких ссылок:
    Ссылки недоступны для гостей
     
  7. Felix_b

    Felix_b Well-Known Member Пользователи

    Регистрация:
    30 мар 2017
    Сообщения:
    116
    Если можно, добавьте лог
     

    Вложения:

Поделиться этой страницей