Баг-репорты

Root · Mar 10, 2010

доброго дня.
прошу постить сюда ваши сообщения об ошибка в работе программы.

vtomas · Mar 13, 2010

Картинки не подхватил, ссылки из статей не удалил.
Проект во вложении.

Root · Mar 13, 2010

Это особенности данного сайта, он содержит немного не стандартные теги. В будущем введу их поддержку.

Dissident · Mar 19, 2010

У меня что-то не парсятся полностью статьи. Парсил от сюда _mashki.ru. Из двухсот с лишним статей напарсивается около 50 и прога начинает зависать, хотя сайты с чпу-шными урлами парсит нормально. В чём беда?

Root · Mar 19, 2010

Dissident said: ↑

У меня что-то не парсятся полностью статьи. Парсил от сюда _mashki.ru. Из двухсот с лишним статей напарсивается около 50 и прога начинает зависать, хотя сайты с чпу-шными урлами парсит нормально. В чём беда?
Click to expand...

Разберемся, для этого отправьте пожалуйста файл проекта с настройками и страницами где не парсится.

vtomas · Mar 19, 2010

Dissident said: ↑

У меня что-то не парсятся полностью статьи. Парсил от сюда _mashki.ru. Из двухсот с лишним статей напарсивается около 50 и прога начинает зависать, хотя сайты с чпу-шными урлами парсит нормально. В чём беда?
Click to expand...

Где ж вы там статьи нашли, сплошное НЮ.

Dissident · Mar 19, 2010

Root said: ↑

Разберемся, для этого отправьте пожалуйста файл проекта с настройками и страницами где не парсится.
Click to expand...

Пропарсивается ровно 56 первых страниц из файла проекта, вот сам проект.

Dissident · Mar 19, 2010

vtomas said: ↑

Где ж вы там статьи нашли, сплошное НЮ.
Click to expand...

Да, статей там действительно нет, мне лишь нужны были фотки, ну и заодно попробывал напарсить текста.

vtomas · Mar 19, 2010

Запустил ваш проект спарсилось 320 файлов.
Видно у вас проблема в соединении интернет.

Dissident · Mar 19, 2010

vtomas said: ↑

Запустил ваш проект спарсилось 320 файлов.
Видно у вас проблема в соединении интернет.
Click to expand...

Вобщем разобрался. У меня установлен касперский, а комп старенький, вобщем попробывал отключить каспера и всё стало нормально парситься.

sah · Mar 20, 2010

не держит гранц парсинга текста

осваивал парсер на одном сайте, т.е. несколько раз парсил один и тот же раздел. при повторном парсинге парсер не держит установленных границ для текста и парсит все остальное + перестал парсить картинки из текста, но детали дизайна, выходящие за пределы границ - хватает за милую душу. но так как сайт статический я списал на погрешность хозяина, который поставил разные теги в коде. и отправился на другой сайт. оказалась джумла 1.0.х со своим стандартным чпу:/content/category/7/28/176/. это кстате урл 1ой страницы со ссылками на статьи, следующие урлы такие:
/content/category/7/28/176/50/50/
/content/category/7/28/176/50/100/
/content/category/7/28/176/50/150/
т.е. на каждой странице по 50 ссылок на статьи. поскольку я понял, что одним заходом все 200 статей не взять решил каждый урл отдельно парсить.
в результате со второй страницы опять пошол парсинг с невыдержанными границами. парсил в тхт, в который парсился весь текст, что есть на веб странице. вывод: при повторном парсинге одного сайта, пусть даже с другими урлами перестает парсить картинки из текста и не держит заданных границ для текста

vtomas · Mar 23, 2010

Выложите проект, посмотрю что не так.

Root · Mar 24, 2010

Sah, чтобы спарсить такие урлы задайте такой шаблон - /content/category/7/28/176/50/{num}/ с шагом в 50.

Насчет ошибок - жду файл проекта.
Возможно вы что-то неправильно делаете, скиньте проект и мы подскажем как.

Спасибо.

Root · Mar 24, 2010

sah said: ↑

осваивал парсер на одном сайте, т.е. несколько раз парсил один и тот же раздел. при повторном парсинге парсер не держит установленных границ для текста и парсит все остальное + перестал парсить картинки из текста, но детали дизайна, выходящие за пределы границ - хватает за милую душу. но так как сайт статический я списал на погрешность хозяина, который поставил разные теги в коде. и отправился на другой сайт. оказалась джумла 1.0.х со своим стандартным чпу:/content/category/7/28/176/. это кстате урл 1ой страницы со ссылками на статьи, следующие урлы такие:
/content/category/7/28/176/50/50/
/content/category/7/28/176/50/100/
/content/category/7/28/176/50/150/
т.е. на каждой странице по 50 ссылок на статьи. поскольку я понял, что одним заходом все 200 статей не взять решил каждый урл отдельно парсить.
в результате со второй страницы опять пошол парсинг с невыдержанными границами. парсил в тхт, в который парсился весь текст, что есть на веб странице. вывод: при повторном парсинге одного сайта, пусть даже с другими урлами перестает парсить картинки из текста и не держит заданных границ для текста
Click to expand...

Спасибо, баг отловлен и исправлен, обновление выйдет на днях (1.87), если хотите получить исправленный файл программы сейчас - стучите в ICQ 571-880-051.
С уважением к вам, Сергей.

Vitalyj · Mar 30, 2010

Скачал 1.89 hotfix и наблюдаются такие глюки:
1. По началу выдавало по 9 текстов, хотя спарсенных ссылок гораздо больше. После девятой висяк программы. Задержки по времени не спасали. Смена проектов других ресурсов тоже.
2. Через некоторое время вообще с рабочих проектов и новых отказался парсить, выдавая "Не удалось загрузить страницу, проверьте корректность границ парсинга!" Хотя только что парсил те 9 ссылок и было все о.к.
3. Функция "использовать загловок в имени" не работает. Проставляются нумерованные названия. В ранних версиях тоже наблюдалось, но перекликиванием туды-сюды вроде начинало работать.

Root · Mar 30, 2010

Виталий, по пункту 1 и 2 это вас банит сайт с которого парсите, попробуйте увеличить время паузы (обратите внимание на то, что оно указывается не в секундах а в миллисекундах 0,001 сек).

3. Неверно заданы границы парсинга заголовка или не стоит галочка на пункте "сохранять заголовок".

sah · Apr 3, 2010

автотеги

у меня почемуто нет вкладки автопростановка тегов версия 1.91

Root · Apr 6, 2010

sah said: ↑

у меня почемуто нет вкладки автопростановка тегов версия 1.91
Click to expand...

Это есть в версии 1.97, выйдет на днях...

xab · Apr 14, 2010

Пытаюсь сграбить сайт один, но не видны ссылки на статьи, другие ссылки видны, фильтры не стоят.

у меня ощущения что не парсятся урлы вида
<a href = "/articles/1.html"> т.е. те у которых есть пробел после равно.
я прав или нет?

Root · Apr 18, 2010

Правы на все 100%, такие ссылки не парсятся

Log in or Sign up

Баг-репорты

Root Администратор Администратор

vtomas Активация истекла Без подписки

Attached Files:

stroyinform(сухие смеси).zip

Root Администратор Администратор

Dissident New Member Пользователи

Root Администратор Администратор

vtomas Активация истекла Без подписки

Dissident New Member Пользователи

Attached Files:

mashki.zip

Dissident New Member Пользователи

vtomas Активация истекла Без подписки

Dissident New Member Пользователи

sah New Member Пользователи

vtomas Активация истекла Без подписки

Root Администратор Администратор

Root Администратор Администратор

Vitalyj New Member Пользователи

Root Администратор Администратор

sah New Member Пользователи

Root Администратор Администратор

xab New Member Пользователи

Root Администратор Администратор

Share This Page

Log in or Sign up

Баг-репорты

Root Администратор Администратор

vtomas Активация истекла Без подписки

Attached Files:

stroyinform(сухие смеси).zip

Root Администратор Администратор

Dissident New Member Пользователи

Root Администратор Администратор

vtomas Активация истекла Без подписки

Dissident New Member Пользователи

Attached Files:

mashki.zip

Dissident New Member Пользователи

vtomas Активация истекла Без подписки

Dissident New Member Пользователи

sah New Member Пользователи

vtomas Активация истекла Без подписки

Root Администратор Администратор

Root Администратор Администратор

Vitalyj New Member Пользователи

Root Администратор Администратор

sah New Member Пользователи

Root Администратор Администратор

xab New Member Пользователи

Root Администратор Администратор

Share This Page

Useful Searches