Это особенности данного сайта, он содержит немного не стандартные теги. В будущем введу их поддержку.
У меня что-то не парсятся полностью статьи. Парсил от сюда _mashki.ru. Из двухсот с лишним статей напарсивается около 50 и прога начинает зависать, хотя сайты с чпу-шными урлами парсит нормально. В чём беда?
Да, статей там действительно нет, мне лишь нужны были фотки, ну и заодно попробывал напарсить текста.
Вобщем разобрался. У меня установлен касперский, а комп старенький, вобщем попробывал отключить каспера и всё стало нормально парситься.
не держит гранц парсинга текста осваивал парсер на одном сайте, т.е. несколько раз парсил один и тот же раздел. при повторном парсинге парсер не держит установленных границ для текста и парсит все остальное + перестал парсить картинки из текста, но детали дизайна, выходящие за пределы границ - хватает за милую душу. но так как сайт статический я списал на погрешность хозяина, который поставил разные теги в коде. и отправился на другой сайт. оказалась джумла 1.0.х со своим стандартным чпу:/content/category/7/28/176/. это кстате урл 1ой страницы со ссылками на статьи, следующие урлы такие: /content/category/7/28/176/50/50/ /content/category/7/28/176/50/100/ /content/category/7/28/176/50/150/ т.е. на каждой странице по 50 ссылок на статьи. поскольку я понял, что одним заходом все 200 статей не взять решил каждый урл отдельно парсить. в результате со второй страницы опять пошол парсинг с невыдержанными границами. парсил в тхт, в который парсился весь текст, что есть на веб странице. вывод: при повторном парсинге одного сайта, пусть даже с другими урлами перестает парсить картинки из текста и не держит заданных границ для текста
Sah, чтобы спарсить такие урлы задайте такой шаблон - /content/category/7/28/176/50/{num}/ с шагом в 50. Насчет ошибок - жду файл проекта. Возможно вы что-то неправильно делаете, скиньте проект и мы подскажем как. Спасибо.
Спасибо, баг отловлен и исправлен, обновление выйдет на днях (1.87), если хотите получить исправленный файл программы сейчас - стучите в ICQ 571-880-051. С уважением к вам, Сергей.
Скачал 1.89 hotfix и наблюдаются такие глюки: 1. По началу выдавало по 9 текстов, хотя спарсенных ссылок гораздо больше. После девятой висяк программы. Задержки по времени не спасали. Смена проектов других ресурсов тоже. 2. Через некоторое время вообще с рабочих проектов и новых отказался парсить, выдавая "Не удалось загрузить страницу, проверьте корректность границ парсинга!" Хотя только что парсил те 9 ссылок и было все о.к. 3. Функция "использовать загловок в имени" не работает. Проставляются нумерованные названия. В ранних версиях тоже наблюдалось, но перекликиванием туды-сюды вроде начинало работать.
Виталий, по пункту 1 и 2 это вас банит сайт с которого парсите, попробуйте увеличить время паузы (обратите внимание на то, что оно указывается не в секундах а в миллисекундах 0,001 сек). 3. Неверно заданы границы парсинга заголовка или не стоит галочка на пункте "сохранять заголовок".
Пытаюсь сграбить сайт один, но не видны ссылки на статьи, другие ссылки видны, фильтры не стоят. у меня ощущения что не парсятся урлы вида <a href = "/articles/1.html"> т.е. те у которых есть пробел после равно. я прав или нет?