Баг-репорты

Тема в разделе "Развитие Content Downloader", создана пользователем Root, 10 мар 2010.

  1. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    8.095
    Адрес:
    sbfroot@gmail.com
    Город:
    Краснодар
    Здравствуйте.

    Приложите файл проекта, где явно демонстрируется возможная ошибка.
     
  2. kondratev

    kondratev New Member Пользователи

    Регистрация:
    17 июл 2015
    Сообщения:
    5
    Город:
    Уфа
    Прикрепил проект. Сейчас похоже, обрезка идет по сохраняемому документу. Мне нужны первые несколько строк, а так загружается 200-300 т ненужных символов, что серьезно сказывается на скорости парсинга. Было бы оптимальнее, обрезать сразу при загрузке, если такое конечно возможно.
     

    Вложения:

  3. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    8.095
    Адрес:
    sbfroot@gmail.com
    Город:
    Краснодар
    2017-08-19_22-16-02.png
     
    kagorec нравится это.
  4. kondratev

    kondratev New Member Пользователи

    Регистрация:
    17 июл 2015
    Сообщения:
    5
    Город:
    Уфа
    У меня настройки как положено, ничего не менял. С ними работает некорректно. Т.е. он загружает код в 400 000 символов, потом этот код перед обработкой парсером обрезается до 1 000 символов , что сказывается на скорости парсинга. На 50 потоках 5 документов, что в общем то неудивительно, так как приходится загружать 90 процентов ненужного кода. Можно повысить скорость работы на порядок, если не больше. Т.е. загружать только 1 000 символов и переходить к следующей ссылке. Оптимальнее не загружать совсем лишние данные, если такое реально.
     

    Вложения:

    • 1.png
      1.png
      Размер файла:
      141 КБ
      Просмотров:
      1
    Последнее редактирование: 20 авг 2017
  5. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    8.095
    Адрес:
    sbfroot@gmail.com
    Город:
    Краснодар
    На данный момент это более подходящая под ваши нужды опция.
     
  6. kondratev

    kondratev New Member Пользователи

    Регистрация:
    17 июл 2015
    Сообщения:
    5
    Город:
    Уфа
    К сожалению эта опция никак не влияет на скорость парсинга. Есть какие то варианты увеличить скорость еще, кроме увеличения количества потоков и ширины канала?
     
    Последнее редактирование: 20 авг 2017
    Root нравится это.
  7. ltt

    ltt Member Пользователи

    Регистрация:
    21 дек 2016
    Сообщения:
    44
    Добрый день! Второй раз запускаю довольно долгий парсинг с использованием [DYNAMICVALUES] (verttables). В итоге выдает файл без распределения свойств, в таком виде: Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    Если отработать несколько ссылок, то результат нормальный. Такое ощущение что обработка файла после парсинга не происходит.
    Файл проекта прикладываю.
     

    Вложения:

  8. ltt

    ltt Member Пользователи

    Регистрация:
    21 дек 2016
    Сообщения:
    44
    Прогнал еще раз... тот же результат((( Выждал после окончания парсинга час на всякий случай. Подстановка значений [DYNAMICVALUES] не происходит...
     
  9. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    8.095
    Адрес:
    sbfroot@gmail.com
    Город:
    Краснодар
    Здравствуйте.

    Пока программа парсит ни в каком стороннем приложении не открывайте файл с результатами (это блокирует запись данных в файл).
     
  10. ltt

    ltt Member Пользователи

    Регистрация:
    21 дек 2016
    Сообщения:
    44
    Добрый день! Конечно, я это знаю - уже 4 раза пробовал, не трогал и через пару часов после окончания парсинга. То же самое. Если 3000 ссылок - все нормально, формируется как надо. А если полный список из 50 000 ссылок - все, процесс заканчивается, выжидаю пару часов, ничего не трогаю и в процессе. И файл недоделанный ((((
    Там 800 свойств. Но у меня были проекты и с тысячью и более свойств - все нормально было....
     
  11. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    8.095
    Адрес:
    sbfroot@gmail.com
    Город:
    Краснодар
    Видимо, происходит переполнение памяти при сохранении данных (более 2ГБ). Пока не придумал решение.
     
  12. ltt

    ltt Member Пользователи

    Регистрация:
    21 дек 2016
    Сообщения:
    44
    Но итоговый файл (без распределения) весит 176 мб всего...
     
  13. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    1.727
    При парсинге картинок с библиотекой WIN в результирующий файл попадают строки с битыми картинками

    Картинки нету
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1000 постов.**
    Но она чудесным образом записывается в файл.

    Не использовать WIN не выходит, так как Error connecting with SSL. EOF was observed that violates the protocol
     

    Вложения:

  14. solt

    solt New Member Пользователи

    Регистрация:
    27 май 2015
    Сообщения:
    3
    Добрый день. Не знаю баг это или фича.
    Но если в название папки содержит аббревиатуру "HTTP", или называется HTTP . То функция "файл с загруженными ранее элементами" не работает, файл не читается - не пишется.
    2.png

    При этом сбор ссылок работает прекрасно
    1.png
     
  15. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    8.095
    Адрес:
    sbfroot@gmail.com
    Город:
    Краснодар
    Не вижу описанной проблемы.

    2017-09-03_09-51-14.png
     

    Вложения:

  16. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    1.727
    Проблема в том, что в файле есть запись file/0001.jpg а ее не должно там быть. Файла то нет.
     
  17. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    8.095
    Адрес:
    sbfroot@gmail.com
    Город:
    Краснодар
    Увидел, исправил.

    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! (заменить им ContentDownloader.exe в папке с программой)

    Спасибо!
     
    Kreol нравится это.
  18. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    8.095
    Адрес:
    sbfroot@gmail.com
    Город:
    Краснодар
    Здравствуйте.

    Обратите внимание на ВАЖНОЕ ПРИМЕЧАНИЕ 4 Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
     
  19. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    1.727
    Само собой это мой способ, и я его использую на очень больших или очень тупых сайтах
    А лучше всего не использовать сразу разбивку через динамиквалью. а просто записывать в ячейке нормально сформированный текст в 1 строку. Например: Тип характеристики%%%Значение характеристики###Тип характеристики 2%%%Значение характеристики2### и т.д.
    Это кстати ускоряет парсинг в десятки раз.
    А вот потом уже настроить 2-й проект для создания характеристик через динамиквалью
    Для этого берем любой сайт который нормально работает по скорости и не банит.
    Открываем ексель и пишем формулу для получения вот такой контрукции site.ru[PARAM]:наши характеристики
    А в динамике используем [PARAM] и разбивку %%% и ###
    Ставим в 1 поток и получаем распарсенные данные)
     
  20. zidky

    zidky New Member Пользователи

    Регистрация:
    28 авг 2013
    Сообщения:
    10
    Здравствуйте! На вин сервер 8 вебапп периодически вылетает с ошибкой мол приложение закрыто. Пока не закрыть сообщение поток дальше не парсит. Эксплорер 11 стоит, если это важно. До этого пробовал 8 эксплорер.
     

Поделиться этой страницей