Предложения по улучшению программы

Тема в разделе "Развитие Content Downloader", создана пользователем Root, 13 мар 2010.

  1. t@lev@n

    t@lev@n Member Пользователи

    Регистрация:
    16 июн 2014
    Сообщения:
    88
    у яндекса есть такое:
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
     
    Root нравится это.
  2. gans

    gans Well-Known Member Пользователи

    Регистрация:
    21 апр 2014
    Сообщения:
    128
    Работоспособность такой возможности будет зависеть от сторонних сервисов. Как только что-то изменится в api, придётся дорабатывать.
     
  3. gans

    gans Well-Known Member Пользователи

    Регистрация:
    21 апр 2014
    Сообщения:
    128
    Случайно запоров важный проект :(, возникла идея - ставить дату парсинга в файл с загруженными ранее ссылками.

    Примерно так: 27.04.2017|Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! . После даты какой-либо разделитель, для удобства отделения даты от ссылок.
     
  4. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    1.765
    Здравствуйте!
    У вас файл сам по себе имеет дату последнего изменения.
     
  5. gans

    gans Well-Known Member Пользователи

    Регистрация:
    21 апр 2014
    Сообщения:
    128
    Добрый день!
    Только как это может помочь? Откатить потом как? В моем случае, было так. Проект нужен для регулярного обновления базы. Подключен файл с загруженными ранее ссылками, чтобы в конечную базу не попадали ранее загруженные. Понадобилось что-то спарсить этим же проектом не для обновления, а отключить файл забыл. Туда записались ненужные ссылки, а когда вспомнил об этом, откатить уже не представлялось возможным. А так можно было бы по датам удалить ненужное.
     
  6. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    1.765
    Пришло в голову, создайте BATH файл для копирования и запускайте после завершения парсинга через ctrl+u
     
  7. RaWaS

    RaWaS New Member Пользователи

    Регистрация:
    1 июл 2012
    Сообщения:
    7
    А почему игнорируются мной заявленные баги?
    1. Прокси загружаются из файла только при начале парсинга, в других случаях требуется копировать из файла вручную
    2. При задании границ в пред просмотре при смене прокси, если прокси в бане програма зависает на всегда и не восстанавливается без перезагрузки программы
    3. Постоянные проблемы с авторизацией по кукам
      1. Куки слетают самостоятельно по непонятной причине с разной переодичностью на разных сайтах, причем они работают при парсинге но не работают ни во вкладке Авторизация ни в предпросмотре
      2. При добавлении кук во вкладке Авторизация или (и) в настройках http запросов, авторизация не происходит (а куки нормальные Щ9авторизированные) перезаписываются на неавторизированные), только после ввода логина и пароля во вкладке Авторизация, причем не возможно удалить куки они появляються сами из неоткуда.
      3. При задании границ в пред просмотре (верхнее окно) весь код в верхнем окне подгружается а в самом браузере (нижнее окно) просит авторизацию
    4. При парсинге большого количества ссылок (тестировал от 5 до 50 потоков) очень много ложных данных парситься ( не распознаются границы) тоесть сохраняется в файл весь код страницы начиная с заданной границы
    5. в большинстве случаев не возможно отменить последнее действие в виду отсутствия ссылки соответствующей
    6. не возможно сгенерировать ссылки с минусовым шагом тоесть от большего к меньшему, сортировка миллиона ссылок приводит к краху программы, пока обходиться способом генирации от 100 до 101 с шагом -1 генериться как надо только нужно в ручную отключать и угадывать сколько сгенерировалось ссылок. если поставить от 100 до 1 с шагом -1 прога крошиться.
    7. Ссылки не загруженные при парсинге сохраняются в файл без возможности выбора ошибки вместе с ссылками которые оказались пустыми
    8. Ссылки не загруженные при ПОСТ запросах сохраняются все одинаковые без ПОСТ параметров
     
    Последнее редактирование: 15 май 2017
  8. RaWaS

    RaWaS New Member Пользователи

    Регистрация:
    1 июл 2012
    Сообщения:
    7
    Как вариант обхода банов:
    1. сделать подгрузку логин:пароль из файла, при бане либо по интервалу менять авторизацию либо распределять потоки по (1-50) на каждый логин
    2. Сделать динамический параметр таймаута перед новым запросом (тоесть менять рандомно от 1000 до 10000 мсек)
    3. Сделать подстановку динамически параметров в юзер агент и реферер
    Сделать оповещение в телеграмм при бане либо при окончании парсинга
    Сделать обнуление всех выделенных границ парсинга либо в настройках границ либо в шаблоне вывода, сейчас можно обнулять только по одной границе и весь проект обнулять не вариант
     
  9. tymsasha

    tymsasha New Member Пользователи

    Регистрация:
    29 апр 2017
    Сообщения:
    2
    Предлагаю сделать в окне предосмотра элемента парсинга (там где посмотреть в ХТМЛ, в виде текста и в ЦСВ) сделать еще две вкладки - ячейку цсв в виде текста и ячейку цсв в виде хтмл. Будет очень удобно просматривать отдельный элемент в виде ХТМЛ. Спасибо.
     
  10. Twist6

    Twist6 Member Пользователи

    Регистрация:
    13 ноя 2016
    Сообщения:
    26
    Не знаю, есть ли в функции предпросмотра элемента, возможность обновлять контент с горячей клавиши, я такую пока не нашел, если есть возможность введите F5 пожалуйста, а то когда много правок в дополнительных настройках границ делаешь, устаешь обновлять двойным кликом по списку.
     
  11. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    8.213
    Адрес:
    sbfroot@gmail.com
    Город:
    Краснодар
    Ctrl+f2 (хоткеи подписаны у кнопок в всплывающих подсказках).
     
    Twist6 нравится это.
  12. Twist6

    Twist6 Member Пользователи

    Регистрация:
    13 ноя 2016
    Сообщения:
    26
    Если парсить статьи и использовать макрос для автопоиска закрывающего тэга в поиске-замене:
    Код:
    <div class="content__expert"{AUTO}div|
    И попадется статья, в которой нет этого блока, то статья вся удаляется, как можно это побороть?

    Пример:
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    [​IMG]
     
    Последнее редактирование: 30 май 2017
  13. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    8.213
    Адрес:
    sbfroot@gmail.com
    Город:
    Краснодар
    2017-05-31_00-28-10.png
     
    xlite и Twist6 нравится это.
  14. Twist6

    Twist6 Member Пользователи

    Регистрация:
    13 ноя 2016
    Сообщения:
    26
    Только проблема возникает, если таких конструкций с {AUTO} штук 5 (у меня в проекте так) и от страницы к странице вариации их использования разнятся в непредсказуемой последовательности.

    И если возвращать исходный текст, все поиск и замены для чистки текста нужно как-то снова проходить. И дублировать со всеми вариациями макросов с {AUTO} их много получается.

    Может проверку можно какую-то ввести, на наличие такого объекта, если есть, то применять поиск замену.

    В роде: {if}<div class="content__expert"{AUTO}div|

    Попробовал прописать в поиск замену вот такую конструкцию, но не помогло:
    [CHECKENTRY(class="content__expert")]<CD_GRAN_1!>[THENTEXT]<div class="content__expert"{AUTO}div|[/CHECKENTRY]
     
    Последнее редактирование: 31 май 2017
  15. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    8.213
    Адрес:
    sbfroot@gmail.com
    Город:
    Краснодар
    2017-05-31_18-22-33.png
     
    xlite, Djahat и Twist6 нравится это.
  16. xmaster

    xmaster New Member Пользователи

    Регистрация:
    26 янв 2017
    Сообщения:
    5
    Захожу в меню Настройка - Опции программы, перехожу на вкладку "Общие опции для проектов", а там настраивается только список прокси. Во вкладке "Defaults" тоже не нашел нужного. (Кстати есть ли разница? Может лучше их объединить?) Искал этот пункт потому что постоянно для каждого проекта парсинга в CSV приходится настраивать параметры, о которых я периодически забываю:
    1. Менять по сколько документов сохранять в один файл с 10000 на 0.
    2. Задавать список User Agent в настройке HTTP запросов (ctrl+h)
    Кстати если любите минимализм - то проще научить программу запоминать эти параметры от предыдущего проекта.

    Также при указании пути результата сохранения нет возможности создать папку, так как у программы открывается свой проводник. Приходится закрывать, создавать папку, потом искать ее в проводнике программы. Было бы здорово если бы при этом открывался проводник Windows, там удобная панель быстрого доступа слева и папки создаются сразу.
     
  17. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    8.213
    Адрес:
    sbfroot@gmail.com
    Город:
    Краснодар
    Здравствуйте.

    Пока создайте ваш шаблонный проект с любыми нужными настройками и загружайте его.

    Также привыкайте пользоваться контекстными меню:
    2017-06-08_21-34-05.png
     
  18. Dumka

    Dumka Well-Known Member Пользователи

    Регистрация:
    8 фев 2012
    Сообщения:
    67
    Всем привет!
    Заметил несколько толи багов толи хз как обозвать...
    1. [FIXREGISTER] "фиксит" регистр и у картинок, поднимая регистр и первой буквы названия картинки, и у расширений картинки...
    Тут наверно в регулярках макроса трабл, после точки нужно искать пробел а потом поднимать букву...
    а так же такое делает: .</P> (вся html разметка у меня маленькими буквами)
    + не "фиксит" регистр после начала абзаца: <p>в
    а по сути такое нужно делать после тегов p, div, li, h\d, td, th, br, blockquote, hr как минимум...

    2. [CSVIMAGES] ... если у адреса картинки не указан протокол то он картинку не забирает.
    т.е. если так на доноре, то не получаю картинку: <img src="//site.ru/img.jpg">
    Приходится принудительно подставлять протокол...
     
    Последнее редактирование: 16 июн 2017
    Root нравится это.
  19. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    1.765
    Здравствуйте
    Было бы хорошо добавить "текстовое поле поиск" в окно поиск/замены
    добавить "текстовое поле поиск" в окно Редактор списка ссылок
     
    Dumka и Root нравится это.
  20. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    8.213
    Адрес:
    sbfroot@gmail.com
    Город:
    Краснодар
    1) Записал в ToDo;
    2) Доработал (Скачайте и установите доработанную версию программы (в программе: главное меню - файл - центр обновлений -> кнопка "обновить программу/скачать обновленную сборку")).
     
    xlite и Dumka нравится это.

Поделиться этой страницей