Предложения по улучшению программы

Valiks · Mar 5, 2012

Отлично написал, многие скажут тебе спасибо.

Но твоя задача была, чтобы при повторном парсинге не парсились страницы, которые были спарсены ранее. Тебе надо, чтобы при повторном парсинге, парсились только новые страницы, и, чтобы именно их загружать на сайт, не трогая те, что уже загружены. Так?

Для того, чтобы это реализовать, надо при повторном парсинге ПОДКЛЮЧИТЬ файл предыдущего проекта. У тебя же в настройках, в пункте "Файл с загруженными элементами" указана директория, а не файл. Нужна указать файл, в котором создался бэкап предыдущего парсинга, тогда, при повторном парсинге будут браться только новые ссылки. второе указать файл с загруженными элементами. Его надо указать явно.

Чтобы делать такой трюк несколько раз, спарсенные ссылки просто надо суммировать, то есть собирать при каждом новом парсинге в один файл. Именно его (этот файл) и надо указывать как "файл с загруженными элементами".

eleon said: ↑

прога бомба автору респект
Click to expand...

Это действительно так, программа отличнейшая. Но более всего радует Автор программы, который постоянно привносит в программу что-то новое.

eleon said: ↑

есть сайты которые прога просто не видит (rutor.org) к примеру или я не то настраивал но очень странно так как на странице кода нет
Click to expand...

Скорее всего, для большинства сайтов есть свои хитрости, зная которые их всё же можно увидеть. В браузере же он показывается. Совсем недавно один такой сайтик вылечился по подсказке Автора программы тем, что добавил в программу новый user agent (MSIE 8.0). До этого там стоял IE и сайт был невидим. А вот чуть позже попался другой сайт, в котором вообще ничего не было видно. Его я так и не вылечил (показывало также как и при rutor.org). Надо бы собрать список таких сайтов, и попросить у Автора помощи в том, чтобы их одолеть.

В rutor.org-е можно получить Ссылки недоступны для гостей через F6, и дальше спулить их в какой-нибудь торрент-клиент. А если нужен контент, то есть описания,- тады не знаю, как получить?

eleon · Mar 5, 2012

Valiks said: ↑

Но твоя задача была, чтобы при повторном парсинге не парсились страницы, которые были спарсены ранее. Тебе надо, чтобы при повторном парсинге, парсились только новые страницы, и, чтобы именно их загружать на сайт, не трогая те, что уже загружены. Так?

Для того, чтобы это реализовать, надо при повторном парсинге ПОДКЛЮЧИТЬ файл предыдущего проекта. У тебя же в настройках, в пункте "Файл с загруженными элементами" указана директория, а не файл. Нужна указать файл, в котором создался бэкап предыдущего парсинга, тогда, при повторном парсинге будут браться только новые ссылки. второе указать файл с загруженными элементами. Его надо указать явно.

Чтобы делать такой трюк несколько раз, спарсенные ссылки просто надо суммировать, то есть собирать при каждом новом парсинге в один файл. Именно его (этот файл) и надо указывать как "файл с загруженными элементами".
Click to expand...

при создании проекта вы создаете папку проекта самостоятельно чтоб все в ней хранилось, сам файл проекта при помощи Ctrl-S сохраняем в туже папку , файл с загруженными элементами когда указываете папку куда он идет вас просит создать файл(на картинке просто длинны поля не хватает чтоб видно было имя файла) , создали и все.
при повторной загрузке проекта вам только обновить адреса страниц остается и все (выдаст все страницы и новые и старые ) но парсить будет только новые а старые пропустит.
и спарсит в ранее указанные папки, что очень удобно открыв ты видиш что к чему.

ну а с заливкой в макссайтЦМС воюю вот рассматриваю как альтернативу ему зебрум так как там сайтами возможно управлять прямо с 1й админки очень удобоваримо. счас на стадии теста зебрума. вордпресс однозначно тяжел для такой функции, мне не нравиться хотя к нему наворотов хоть отбавляй. не думаю что автору тяжело будет сделать плагин для вывода в данную ЦМС (я так надеюсь).(это не рекламма просто реально то что хотел от вордпреса но самому крутить не нада)

Valiks · Mar 5, 2012

С программой и настройками ясно. Мы говорили об одном и тот же.

Что касается загрузки в CMS, я лично использую другие программы, но Content Downloader способен подготовить проект к многим CMS, надо только самому создать и настроить шаблон для сохранения.

Относительно того, чем решит автор программы дополнить в функионале не знаю, слова Автора,- поледнее.

eleon · Mar 5, 2012

Valiks said: ↑

Что касается загрузки в CMS, я лично использую другие программы, но Content Downloader способен подготовить проект к многим CMS, надо только самому создать и настроить шаблон для сохранения.
Click to expand...

а вот сдесь по подробнее пожалуйста.

Valiks · Mar 5, 2012

Как создать шаблон для импорта в разные CMS

Как создать шаблон для импорта в разные CMS

Каждый файл импорта в каждую конкретную CMS, имеет какой-то свой формат. Каждое поле, обрамлено в свои тэги. Вариантов может быть множество, но у конкретной CMS, если в ней предусмотрен импорт, обычно эти поля не меняются. Чтобы проще было бы понять, что к чему, надо увидеть уже готовый проект, и по аналогии, создать шаблон, в который и загружать спарсенное. Увидеть проект можно, если из данной CMS сначала сделать экспорт, то есть сохранить данные, и увидеть что там сохранилось.

Могу показать пример шаблона для Вордпресс. Несмотря на то, что в программе заготовка уже существует, с помощью этого примера спарсенное можно сохранять прямо в файл импорта. По аналогию создаётся файл для других CMS.
Code:
<?xml version="1.0" encoding="utf-8"?>

<rss version="2.0"
	xmlns:jos="Непонятно что"
>
	<channel>
		<jos:jxr_version>1.0</jos:jxr_version>
		<jos:category><jos:category_nicename>vse-dlya-devushek</jos:category_nicename><jos:category_parent></jos:category_parent><jos:cat_name><![CDATA[Все для девушек]]></jos:cat_name><jos:level>1</jos:level><jos:path>vse-dlya-devushek</jos:path></jos:category>
		<user><name>admin</name><regdate>1319882146</regdate><lastact>1320580841</lastact><articles>9</articles><messages>0</messages></user>

		<item>
			<title>Мобильный телефон глазами девушки</title>
			<alt_name>mobilnyj-telefon-glazami-devushki</alt_name>
			<introtext:encoded><![CDATA[ Какойто-то текст
]]></fulltext:encoded>
			<meta_description>Текст для мета </meta_description>
			<meta_keywords>подарить, друг, жена, женщина, слово, мама, мобильный</meta_keywords>
			<category>vse-dlya-devushek</category>
			<category_title>Все для девушек</category_title>
			<date>2011-10-30 10:02:58</date>
			<author>admin</author>
		</item>
</channel>
</rss>
Это примерный образец файла импорта в Вордпресс. Отсюда нетрудно проанализировать, как создать шаблон в Content Downloader-е. Наши <CD_GRAN_1!> вставляются между тэгами, которые соответствуют наполнению,- Категория (<category>), Дата (<date>), и так далее.

Самый простой вариант, скопировать один вот такой шаблон в поле создания шаблонов Content Downloader-а, и там потихоньку задать все необходимые поля. надо только помнить, что парсить надо будет в один файл, и что в этот файл после окончания надо будет проставить тэги начала и конца файла. В приведённом случае это
Code:
<channel>
<rss>
... . . . . . . . . . . . . . . . 
</channel>
</rss>
ну и то, что стоит в шапке, то есть вот это
Code:
<?xml version="1.0" encoding="utf-8"?>

<rss version="2.0"
	xmlns:jos="Непонятно что"
>
<item> - сюда парсится тело статьи.

Нам в шаблоне CD надо создать что-то типа такого
Code:
<item>
			<title><CD_GRAN_1!></title>
			<alt_name><CD_GRAN_2!></alt_name> (здесь с параметрами конвертации в транслит и так далее)
			<introtext:encoded><![CDATA[ <SHORT len="250" //><CD_GRAN_3!></SHORT>
<fulltext:encoded><![CDATA[
<CD_GRAN_3!>
			<meta_description><SHORT len="150" //><CD_GRAN_3!></SHORT> </meta_description>
			<meta_keywords><CD_GRAN_4!></meta_keywords>
			<category><CD_GRAN_5!>(конвертация в транслит)</category>
			<category_title><CD_GRAN_5!></category_title>
			<date><CD_GRAN_6!></date>
			<author>admin</author>
		</item>
Это всё очень приблизительное объяснение, я, как уже было сказано, этим не пользуюсь. Чтобы получалось идеально, надо немного поэкспериментировать, и, лучше всего создать шаблон для Content Downloader-а, который будет использоваться в инструменте "Обработка и импорт в КМС". Но, при желании, можно и таким способом создавать прекрасные файлы для импорта в CMS. Главное желание, терпение и немного потраченного времени. Один раз промучался, и сделал себе шаблон на долгое время для любимой CMS-ки.

Если чего-то недоглядел, в чём-то ошибся,- не серчайте,- моё описание не претендует на учебник, я объяснил принцип создания, здесь нет готового рецепта.

Benjamin Coleman · Mar 14, 2012

Снова предложение по улучшению: сделайте, пожалуйста, чекер наличия текста в сканере сайта:

То есть возможность добавлять или нет ссылку в результаты по наличию текста на странице (а не только ссылкам), да, понимаю, что медленно будет, но иногда очень, очень полезно.

Valiks · Mar 15, 2012

Фильтрация ссылок и текста

Если я правильно понял ваше пожелание, то могу ответить, что всё это в программе уже есть.

1. Вы можете настроить "Дополнительные опции"

Ссылки недоступны для гостей

задать длину статьи, которая будет загружаться.

2. Другое, можно задать фильтр по ключевикам

3. Если заданные границы парсинга не содержат данных, то сслыка не загружается

Если же вы имели ввиду, что в момент собирания ссылок проверять наличие чего бы то ни было на странице, то в этом случае программа вообще теряет смысл. Все задачи решаются поэтапно. Посмотрите Ссылки недоступны для гостей, повнимательнее, особенно тему "Ссылки недоступны для гостей", там много ответов найдёте.

Ссылки недоступны для гостей

4. Кроме того, в настройках "Дополнительные гринцы парсинга", есть опция "Обязательна". Если поставить галочку, тогда, в случае если данная граница парсинга будет пустой, документ не загрузится. На картинке выше это хорошо видно.

Benjamin Coleman · Mar 15, 2012

Valiks, большое спасибо за ответ, особенно, за п.4 - про него как-то и забыл. Но это всё не то.

Просто бывают такие случаи, когда признак того, что нужно выпарсить можно найти только по тексту на странице, и если, скажем, шоп на 1,5 миллиона, страниц, то несколько не целесообразно сначала собирать эти 1,5 ляма страниц, потом все их парсить, и потом делать выборку нужных 10%, например. Поэтому было круто бы отсеять ненужное еще на этапе сборки страниц

Ладно, в конце концов, у меня есть инструменты (например, в xrumer) - которые делают эту действительно простую операцию, просто хотелось, бы это видеть в Content Downloader.

Valiks · Mar 15, 2012

Хотелось, бы это видеть в Content Downloader

Реклама xrumer-а, это конечно дело хорошее, но, что-то сомневаюсь я, что ваш xrumer способен проанализировать всё содержимое 1,5 миллионов страниц, в считанные секунды, и выбрать только те из них, которые отвечают вашим запросам. Но, это дело xrumer-а.

Что касается Content Downloader-а, похоже, вы даёте правильный алгоритм его работы.

Benjamin Coleman said: ↑

несколько не целесообразно сначала собирать эти 1,5 ляма страниц, потом все их парсить, и потом делать выборку нужных 10%, например. Поэтому было круто бы отсеять ненужное еще на этапе сборки страниц
Click to expand...

Если настроить все фильтры правильно, то программа отсеет ненужное сразу, вам не нужно будет делать никакой выборки, вы ненужные страницы просто не увидите в спарсенном контенте.

Benjamin Coleman said: ↑

Ладно, в конце концов, у меня есть инструменты (например, в xrumer) - которые делают эту действительно простую операцию, просто хотелось, бы это видеть в Content Downloader.
Click to expand...

Я конечно, завидую вам. Автору программы мы передадим вашу просьбу. Но, может быть заодно и предложить изменить тогда цену на Content Downloader, сделать её соразмерной с xrumer-ом? Чего мелочиться?

Benjamin Coleman · Mar 15, 2012

xrumer - сабмитер, там просто есть доп. инструмент анализа ссылок, он (многопоточно) пробегает по ссылкам и ищет текст или же http-заголовок страницы. Ни о какой рекламе речи не шло, программы разного профиля совершенно.

Если настроить все фильтры правильно, то программа отсеет ненужное сразу, вам не нужно будет делать никакой выборки, вы ненужные страницы просто не увидите в спарсенном контенте.
Click to expand...

Вот о чем и речь, я столкнулся с тем, что по ссылке не определить, нужна она или нет, только на самой странице текст об этом.

Valiks · Mar 15, 2012

Content Downloader - Сначала ссылка, потом анализ

Benjamin Coleman said: ↑

xrumer - сабмитер, там просто есть доп. инструмент анализа ссылок, он (многопоточно) пробегает по ссылкам и ищет текст или же http-заголовок страницы. Ни о какой рекламе речи не шло, программы разного профиля совершенно.
Click to expand...

Вам просто нужна поисковая машина внутри программы? Чтобы получать в Content Downloader подобные ссылки, надо изучить способ выдачи ссылок ПС, например: "GET параметры поиска Yandex" задать поиск таких ссылок, но, вы получите не реальную картину, а ту, которую вам выдадут поисковики, через которые будет сформирована ссылка.

То на что способен xrumer, я не изучал. Поиск ссылок по признаку и сбор ссылок с сайта, это не одно и то же, хотя, в чём-то совпадает. Все программы типа xrumer-а, с которыми приходилось работать, обращаются, при поиске ссылок, к ПС, они не анализируют сайт. Делайте выводы о качестве ссылок, которые вы получите. Яндекс, да и Гугле хранит у себя в базще только то, что они считают нужным. Но, даже яндекс, прежде чем изучить содержание страницы, сначала обращается к ссылке, потом анализирует содержимое.

Benjamin Coleman said: ↑

Вот о чем и речь, я столкнулся с тем, что по ссылке не определить, нужна она или нет, только на самой странице текст об этом.
Click to expand...

Правильная мысль, но неправильные выводы и требования. Ссылка это одно, а содержимое страницы, это другое. Вы не можете анализировать то содержимое, ссылки на которое у вас нет. Сначала ссылка, потом анализ, наоборот не бывает.

Однако, я не программист, может быть чего-то недопонимаю, буду рад если покажете мне иную схему работы

Benjamin Coleman · Mar 15, 2012

Valiks said: ↑

Вам просто нужна поисковая машина внутри программы? Чтобы получать в Content Downloader подобные ссылки, надо изучить способ выдачи ссылок ПС, например: "GET параметры поиска Yandex" задать поиск таких ссылок, но, вы получите не реальную картину, а ту, которую вам выдадут поисковики, через которые будет сформирована ссылка.
Click to expand...

Нет, ни о какой поисковой системе и тем более Яндексе я не писал. А также о "способе выдачи ссылок ПС". Просто получить содержимое странички и проверить наличие текста на оной, вот и всё. Если есть, то добавляем список задания, нет - не добавляем.

Технически, я уверен, это несложная функция. Ссылки недоступны для гостей для примера (тоже написан на delphi, кстати).

Правильная мысль, но неправильные выводы и требования. Ссылка это одно, а содержимое страницы, это другое.
Click to expand...

Не требование, просто предложение. Топик для предложений

Valiks · Mar 15, 2012

К чему эти примеры? Там есть зараннее заданная база ссылок, которую надо иметь, а потом только хрумер проведёт анализ. Откуда он эти ссылки взял? Это программа для спама.

Content Downloader решает на данный момент гораздо более сложные задачи, гораздо эффективнее и быстрее. Задайте ту же самую базу ссылок в Content Downloader и проделайте ту же самую операцию, и убедитесь. Вот чего не хватает Content Downloader-у, так это возможности добавления в существующий инструмент фильтрации, варианта выбора нескольких позиций границ парсинга, во всём остальном, всё есть.

Dimit · Mar 20, 2012

Предложение: добавить к имеющимся в программе макросам вывода WP еще один для создания содержимого ячейки "Цитата", [EXCERPT][/EXCERPT]

Valiks · Mar 20, 2012

Dimit said: ↑

Предложение: добавить к имеющимся в программе макросам вывода WP еще один для создания содержимого ячейки "Цитата", [EXCERPT][/EXCERPT]
Click to expand...

Обсуждение самой задачи в данной теме

bork75 · Mar 20, 2012

Предлагаю сделать {num}, кнопочкой.
Кликнул и {num} вписалось на место курсора. мелочь. но часто используемая фишка

Valiks · Mar 20, 2012

Сохранение ссылок спарсенного контента

В одной из тем возник вопрос, который перперос в потребность создания дополнения в программе. Вот примерное ТЗ, хотелось бы чтобы высказались и другие пользователи

esidrex said: ↑

Из выдачи мне нужно было напарсить сайты конкретной тематики на конкретной CMS. Это список у меня есть. Теперь я хочу пройтись по этому списку и найти страницы на этих сайтах содержащие определенный текст. Но как это сделать???
Click to expand...

Говорил с автором программы, объяснил что нужно. Будет сделана дополнительная функция в программе, сейчас пока что нет возможности. В течение нескольких дней будет такая опция.

В общем задачу я понял так.
- есть список, к примеру 1000 ссылок
- создали фильтр, скачалось, к примеру, 224 ссылки
- нужно в отдельный файл получить ссылки на данные 224 статьи

Если правильно понял, подтвердите, если нет,- поясните.
Если у кого-то есть другие пожелания к этой задаче, связанной со ссылками - подсказывайте.

Кроме этого, будет сделана опция сохранения спарсенных ссылок на картинке при Гугле парсинге картинок.

Сколько времени уйдёт? Парочка дней

Yurijd · Mar 20, 2012

А можно ли как то сделать в программе, чтобы при парсинге тайтлов с сайта, она
превращала их в анкоры для каждой конкретной страницы? Очень нужно для своих сайтов при покупке ссылок к примеру.

Valiks · Mar 20, 2012

Это надо написать не сюда, такое в программе уже возможно сделать.
Кроме всего есть программа, бесплатная "Ссылки недоступны для гостей", которая тоже может вам в этом деле помочь

kagorec · Mar 20, 2012

bork75 said: ↑

Предлагаю сделать {num}, кнопочкой.
Кликнул и {num} вписалось на место курсора. мелочь. но часто используемая фишка

Click to expand...

это ведь давно сделано
F2 - {num}
F3 - {key}

Log in or Sign up

Предложения по улучшению программы

Valiks New Member Супер Модератор

eleon New Member Пользователи

Valiks New Member Супер Модератор

eleon New Member Пользователи

Valiks New Member Супер Модератор

Benjamin Coleman New Member Пользователи

Valiks New Member Супер Модератор

Benjamin Coleman New Member Пользователи

Valiks New Member Супер Модератор

Benjamin Coleman New Member Пользователи

Valiks New Member Супер Модератор

Benjamin Coleman New Member Пользователи

Valiks New Member Супер Модератор

Dimit New Member Пользователи

Valiks New Member Супер Модератор

bork75 New Member Пользователи

Valiks New Member Супер Модератор

Yurijd New Member Пользователи

Valiks New Member Супер Модератор

kagorec Администратор Staff Member Администратор

Пожелания по улучшению LinkInspector

в качестве предложения ...

Предложение по улучшению программы

Прекращена работа программы "WBApp.exe" и вылет программы

Предложения по улучшению WBApp

Share This Page

Log in or Sign up

Предложения по улучшению программы

Valiks New Member Супер Модератор

eleon New Member Пользователи

Valiks New Member Супер Модератор

eleon New Member Пользователи

Valiks New Member Супер Модератор

Benjamin Coleman New Member Пользователи

Valiks New Member Супер Модератор

Benjamin Coleman New Member Пользователи

Valiks New Member Супер Модератор

Benjamin Coleman New Member Пользователи

Valiks New Member Супер Модератор

Benjamin Coleman New Member Пользователи

Valiks New Member Супер Модератор

Dimit New Member Пользователи

Valiks New Member Супер Модератор

bork75 New Member Пользователи

Valiks New Member Супер Модератор

Yurijd New Member Пользователи

Valiks New Member Супер Модератор

kagorec Администратор Staff Member Администратор

Пожелания по улучшению LinkInspector

в качестве предложения ...

Предложение по улучшению программы

Прекращена работа программы "WBApp.exe" и вылет программы

Предложения по улучшению WBApp

Share This Page

Useful Searches