Баг-репорты

Тема в разделе "Развитие Content Downloader", создана пользователем Root, 10 мар 2010.

  1. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    доброго дня.
    прошу постить сюда ваши сообщения об ошибка в работе программы.
     
  2. vtomas

    vtomas Активация истекла Без подписки

    Регистрация:
    10 мар 2010
    Сообщения:
    7
    Картинки не подхватил, ссылки из статей не удалил.
    Проект во вложении.
     

    Вложения:

  3. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Это особенности данного сайта, он содержит немного не стандартные теги. В будущем введу их поддержку.
     
  4. Dissident

    Dissident New Member Пользователи

    Регистрация:
    19 мар 2010
    Сообщения:
    6
    У меня что-то не парсятся полностью статьи. Парсил от сюда _mashki.ru. Из двухсот с лишним статей напарсивается около 50 и прога начинает зависать, хотя сайты с чпу-шными урлами парсит нормально. В чём беда?:cool:
     
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Разберемся, для этого отправьте пожалуйста файл проекта с настройками и страницами где не парсится.
     
  6. vtomas

    vtomas Активация истекла Без подписки

    Регистрация:
    10 мар 2010
    Сообщения:
    7
    Где ж вы там статьи нашли, сплошное НЮ.
     
  7. Dissident

    Dissident New Member Пользователи

    Регистрация:
    19 мар 2010
    Сообщения:
    6
    Пропарсивается ровно 56 первых страниц из файла проекта, вот сам проект.
     

    Вложения:

    • mashki.zip
      Размер файла:
      1,3 КБ
      Просмотров:
      7
  8. Dissident

    Dissident New Member Пользователи

    Регистрация:
    19 мар 2010
    Сообщения:
    6
    Да, статей там действительно нет, мне лишь нужны были фотки, ну и заодно попробывал напарсить текста.
     
  9. vtomas

    vtomas Активация истекла Без подписки

    Регистрация:
    10 мар 2010
    Сообщения:
    7
    Запустил ваш проект спарсилось 320 файлов.
    Видно у вас проблема в соединении интернет.
     
  10. Dissident

    Dissident New Member Пользователи

    Регистрация:
    19 мар 2010
    Сообщения:
    6
    Вобщем разобрался. У меня установлен касперский, а комп старенький, вобщем попробывал отключить каспера и всё стало нормально парситься.
     
  11. sah

    sah New Member Пользователи

    Регистрация:
    20 мар 2010
    Сообщения:
    8
    не держит гранц парсинга текста

    осваивал парсер на одном сайте, т.е. несколько раз парсил один и тот же раздел. при повторном парсинге парсер не держит установленных границ для текста и парсит все остальное + перестал парсить картинки из текста, но детали дизайна, выходящие за пределы границ - хватает за милую душу. но так как сайт статический я списал на погрешность хозяина, который поставил разные теги в коде. и отправился на другой сайт. оказалась джумла 1.0.х со своим стандартным чпу:/content/category/7/28/176/. это кстате урл 1ой страницы со ссылками на статьи, следующие урлы такие:
    /content/category/7/28/176/50/50/
    /content/category/7/28/176/50/100/
    /content/category/7/28/176/50/150/
    т.е. на каждой странице по 50 ссылок на статьи. поскольку я понял, что одним заходом все 200 статей не взять решил каждый урл отдельно парсить.
    в результате со второй страницы опять пошол парсинг с невыдержанными границами. парсил в тхт, в который парсился весь текст, что есть на веб странице. вывод: при повторном парсинге одного сайта, пусть даже с другими урлами перестает парсить картинки из текста и не держит заданных границ для текста
     
  12. vtomas

    vtomas Активация истекла Без подписки

    Регистрация:
    10 мар 2010
    Сообщения:
    7
    Выложите проект, посмотрю что не так.
     
  13. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Sah, чтобы спарсить такие урлы задайте такой шаблон - /content/category/7/28/176/50/{num}/ с шагом в 50.

    Насчет ошибок - жду файл проекта.
    Возможно вы что-то неправильно делаете, скиньте проект и мы подскажем как.

    Спасибо.
     
  14. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Спасибо, баг отловлен и исправлен, обновление выйдет на днях (1.87), если хотите получить исправленный файл программы сейчас - стучите в ICQ 571-880-051.
    С уважением к вам, Сергей.
     
  15. Vitalyj

    Vitalyj New Member Пользователи

    Регистрация:
    13 мар 2010
    Сообщения:
    4
    Скачал 1.89 hotfix и наблюдаются такие глюки:
    1. По началу выдавало по 9 текстов, хотя спарсенных ссылок гораздо больше. После девятой висяк программы. Задержки по времени не спасали. Смена проектов других ресурсов тоже.
    2. Через некоторое время вообще с рабочих проектов и новых отказался парсить, выдавая "Не удалось загрузить страницу, проверьте корректность границ парсинга!" Хотя только что парсил те 9 ссылок и было все о.к.
    3. Функция "использовать загловок в имени" не работает. Проставляются нумерованные названия. В ранних версиях тоже наблюдалось, но перекликиванием туды-сюды вроде начинало работать.
     
  16. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Виталий, по пункту 1 и 2 это вас банит сайт с которого парсите, попробуйте увеличить время паузы (обратите внимание на то, что оно указывается не в секундах а в миллисекундах 0,001 сек).

    3. Неверно заданы границы парсинга заголовка или не стоит галочка на пункте "сохранять заголовок".
     
  17. sah

    sah New Member Пользователи

    Регистрация:
    20 мар 2010
    Сообщения:
    8
    автотеги

    у меня почемуто нет вкладки автопростановка тегов версия 1.91
     
  18. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Это есть в версии 1.97, выйдет на днях...
     
  19. xab

    xab New Member Пользователи

    Регистрация:
    14 апр 2010
    Сообщения:
    8
    Пытаюсь сграбить сайт один, но не видны ссылки на статьи, другие ссылки видны, фильтры не стоят.

    у меня ощущения что не парсятся урлы вида
    <a href = "/articles/1.html"> т.е. те у которых есть пробел после равно.
    я прав или нет?
     
  20. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Правы на все 100%, такие ссылки не парсятся
     

Поделиться этой страницей