Предложения по улучшению программы

Тема в разделе "Развитие Content Downloader", создана пользователем Root, 13 мар 2010.

  1. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Пока такой поиск-заменой сделайте это:
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 3 постов.**
     
    kadishev1997 нравится это.
  2. masrub

    masrub Well-Known Member Пользователи

    Регистрация:
    29 июн 2018
    Сообщения:
    194
    Сергей есть еще мысль по доработке "Массовая загрузка файлов", либо не понял как это реализовать в текущей версии. Возможно не разобрался. Есть к примеру 100 url на разные сайты, необходимо часть файлов сохранить в папке 1, часть в папке 2, часть в папке 3.
    Нужно добавить возможность указания пути для локального сохранения файлов. Что то типа url,[FolderPathLocal]C:\path
    Галка Распределение по папкам не подходить, т.к. годиться ля одного сайта, но когда их тысячи, все сложнее.
     
    Root нравится это.
  3. Icealex

    Icealex New Member Пользователи

    Регистрация:
    11 мар 2021
    Сообщения:
    1
    Город:
    Москва
    В логе парсинга хорошо бы добавить сортировку по столбцам. Сейчас при наведении на столбец, название подсвечивается, хочется нажать для сортировки по нужному, но ничего не происходит.
    Я понимаю, что можно сделать экспорт в CSV и потом в EXCEL сортировать, но это куча лишних действий.
    В основном нужен столбец "count", сортирую по нему для отсеивания адресов, которые буду парсить повторно (капча вылетела или еще какой баг)
     
    Root нравится это.
  4. kadishev1997

    kadishev1997 Well-Known Member Пользователи

    Регистрация:
    27 мар 2019
    Сообщения:
    310
    Здравствуйте!
    Возникла потребность сохранять Custom Headers / Cookies, которые получаем через WBAppCEF в текстовый файл, дабы эти данные использовать сразу в нескольких других проектах или внутри PHP_SCRIPT других проектов.
    Попробовал сделать костыли внутри WBAppCEF (как-то скопировать Custom Headers / Cookie и сохранить их в файле), но к сожалению не вышло.

    Поэтому это предложение по улучшению программы, а именно добавить функцию сохранения Custom Headers / Cookies в отдельный файл
     
  5. Trenikola

    Trenikola Member Пользователи

    Регистрация:
    8 июн 2013
    Сообщения:
    60
    Озон парситься на ура на дешевых прокси, без бана - о чем Вы говорите? Я его и WB спокойно парсю без проблем
     
    ITz нравится это.
  6. TeslaCo

    TeslaCo Member Пользователи

    Регистрация:
    4 мар 2014
    Сообщения:
    211
    Здравствуйте, добавьте пожалуйста в это меню, галочку PUT
    upload_2021-6-28_18-31-28.png
     
  7. kadishev1997

    kadishev1997 Well-Known Member Пользователи

    Регистрация:
    27 мар 2019
    Сообщения:
    310
    Здравствуйте.

    Хотелось бы видеть в программе возможность увеличения максимального числа потоков до 500.
    Многие крупные сайты (от 500 тысяч страниц и больше, которые нужно обрабатывать на постоянной основе) позволяют парсить себя.
    В текущих условиях 100 потоков - это, уже на сегодняшний год честно говоря маловато. Скорость обработки при хорошем "железе" и быстром интернете позволяют работать и быстрее, но на текущий момент хотелось бы видеть подобную доработку в программе.
    Заранее спасибо, если такое добавите в программу
     
  8. Xim

    Xim New Member Пользователи

    Регистрация:
    8 мар 2021
    Сообщения:
    9
    Город:
    Moscow
    Вот такой косяк вышел.
    Сел в самолет. Думаю, пока лечу, запилю-ка я проект на CD, благо сгреб html страницы на диск.
    Взлетели, связи нет... а CD и говорит - не могу проверить активацию лицензии.
    Можно ли как-то сделать, чтобы програмулина делала с какой-то периодичностью проверку активации, например раз в сутки и помнила сутки это состояние.
     
  9. JAGUAR

    JAGUAR Member Пользователи

    Регистрация:
    26 авг 2010
    Сообщения:
    28
    Здравствуйте, Сергей скажите пожалуйста, можно ли организовать/добавить функцию запуска .bat файлов до и после выполнения различных проектов в планировщике? У меня сложная организация проекта. Например:

    1. Сначала идёт парсинг необходимых данных с сайта в файл формате поиска-замены
    2. Далее идёт обработка (вставка данных) с помощью правил поиска-замены на основе сформированного файла из 1 шага
    3. Запуск .bat для подготовки файла в формате .dat на основе обработанного файла из 2 шага
    4. Запуск .bat для подготовки файла в формате .dat (принцип как в 3 шаге только для другого формата)
    5. Запуск .bat файла для перемещения/удаления (move, del, erase) ненужных файлов из каталога
    6. Завершающий .bat для сборки время которого длится 20-25 мин
    7. Запуск .bat файла для упаковки рабочего каталога в .7z архив

    Было бы здорово организовать чтобы до/после запуска различных проектов в планировщике можно было бы запускать необходимые .bat файлы, пусть даже не планировщиком, а пока открыта программа CD. Сложно подобрать время которое уходит на обработку в CD + сборку bin/dat. Готов оплатить данную доработку, для полной автоматизации этого очень не хватает! Не перестаю радоваться программе, спасибо Сергею! Сергей ГЕНИЙ!
     
  10. kadishev1997

    kadishev1997 Well-Known Member Пользователи

    Регистрация:
    27 мар 2019
    Сообщения:
    310
    Это все делается средствами внутреннего планировщика задач Windows. Сначала настраиваете все BAT-ники и другие компиляции по порядку, а после запускаете CD для парсинга (если он нужен конечно). Работает на УРА, да и велосипед создавать не нужно.
     
    Root нравится это.
  11. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    2021-07-30_06-19-11.png
     
    JAGUAR нравится это.
  12. vadimsoloviev

    vadimsoloviev Member Пользователи

    Регистрация:
    6 окт 2017
    Сообщения:
    66
    Город:
    Витебск
    Хочу тёмную тему.
     
  13. JAGUAR

    JAGUAR Member Пользователи

    Регистрация:
    26 авг 2010
    Сообщения:
    28
    Root. Большое спасибо! Не сразу нашел настройки этих параметров.
     
    Последнее редактирование: 7 авг 2021
    Root нравится это.
  14. Mishall

    Mishall New Member Пользователи

    Регистрация:
    5 апр 2020
    Сообщения:
    6
    Город:
    Уфа
    Нашел странный момент по транслитерации названий картинок при работе парсера с гугл картинок
    П-то у вас используются нестандартные правила транслита и вместо ы->i
    а обычно ы->y
     
  15. kadishev1997

    kadishev1997 Well-Known Member Пользователи

    Регистрация:
    27 мар 2019
    Сообщения:
    310
    Здравствуйте! Потребовалась такая задача:
    Допустим, у нас есть подобный код
    Код:
    {id:001,"views":12,"clicks":7}
    {id:001,"views":14,"clicks":4}
    {id:002,"views":27,"clicks":14}
    {id:002,"views":30,"clicks":9}
    Нам надо получить примерно следующее:
    Код:
    {id:001,"views":26,"clicks":11}
    {id:002,"views":57,"clicks":25}
    Т.е, происходит объединение строк по id и суммируются её значения "views" и "clicks". Это может не обязательно суммироваться, может и отниматься/делиться и т.д.

    Попытался как-то сделать подобную конструкцию через REPLACE и MATH, но ничего не выходит.

    В системе помощи и на форуме схожего решения не нашел.
    Очень-очень хотелось бы видеть подобную доработку, возможно даже за материальную благодарность
     
  16. AfeK91

    AfeK91 New Member Пользователи

    Регистрация:
    21 май 2020
    Сообщения:
    8
    Город:
    Украина
    В генераторе ссылик во вкладке контент хотелось бы увидить функцию "{num:0,{key2}}" = "{key2}" = количество страниц динамическое.
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
     
  17. Neutrion

    Neutrion Member Пользователи

    Регистрация:
    13 ноя 2020
    Сообщения:
    54
    Всем доброго времени суток!
    Не нашел подходяшей темы - может она и есть за что прошу прошения.
    Я хочу сообщить об ощибке или я что то не так понял.

    Есть такой текст
    Rondel MG HOME Moderno 20 cm 5 L

    В поиск-замена границы парсинга ставлю следующее

    re:\scm\s| см
    re:\sL\s| л


    В окне тестирования хотел получить

    Rondel MG HOME Moderno 20 см 5 л
    Получаю то что хотел

    Rondel MG HOME Moderno 20 см 5 л

    НО!!!!!!!!!
    После парсинга получаю файл CSV в котором получаю

    Rondel MG HOME Moderno 20 cm 5 L

    Ошибка ли это в CD? Или я что-то не понял?
     
  18. kadishev1997

    kadishev1997 Well-Known Member Пользователи

    Регистрация:
    27 мар 2019
    Сообщения:
    310
    Здравствуйте! Последние 0,5-1 год замечаю такую тему: при передаче всех Headers для разных сайтов - очень часто попадается этот параметр
    который "ломает" предпосмотр и парсинг сайтов из-за того, что в коде вместе с этим параметром читаются "иероглифы"
    Если передавать данные вручную, то его за пару кликов можно спокойно удалить из custom headers (ctrl+h).

    Но если требуется автоматическая авторизация (ctrl+k) и работа проекта по крону, в которой нужно передавать практически все параметры - становится уже проблематично.

    Хотелось бы видеть некую галочку внутри программы, чтобы при автоматической авторизации параметр "Accept-Encoding: gzip, deflate, br" - удалялся автоматически, т.к. из-за него программа не хочет подгружать код страницы корректно.
     
  19. AfeK91

    AfeK91 New Member Пользователи

    Регистрация:
    21 май 2020
    Сообщения:
    8
    Город:
    Украина
    Есть проблема. В хромио при работе постояно клик по верх окон видим когда запускается новый браузер + падает ексель через некоторое время ну и много процесов не коректно работают, помогает перезагрузка, при этом работать при запущеном парсинге не удобна. спасибо
     
  20. nail

    nail Member Пользователи

    Регистрация:
    15 сен 2014
    Сообщения:
    60
    Не хватает функционала в Инструменте разделения больших файлов:

    2019-09-05_06-20-13.png
    (указано черными стрелками)

    Можно добавить поддержку переменных из проекта при указании папки для сохранения разбитых файлов и при указании названия файла на диске?
    Чтобы можно было запускать одновременно несколько копий CD с одним проектом, но с разными файлами XML/YML для разбора.
     

Поделиться этой страницей