Предложения по улучшению программы

Discussion in 'Развитие Content Downloader' started by Root, Mar 13, 2010.

  1. Valiks

    Valiks New Member Супер Модератор

    Joined:
    Jan 18, 2012
    Messages:
    554
    Location:
    Всё время в скэйпе
    Отлично написал, многие скажут тебе спасибо.

    Но твоя задача была, чтобы при повторном парсинге не парсились страницы, которые были спарсены ранее. Тебе надо, чтобы при повторном парсинге, парсились только новые страницы, и, чтобы именно их загружать на сайт, не трогая те, что уже загружены. Так?

    Для того, чтобы это реализовать, надо при повторном парсинге ПОДКЛЮЧИТЬ файл предыдущего проекта. У тебя же в настройках, в пункте "Файл с загруженными элементами" указана директория, а не файл. Нужна указать файл, в котором создался бэкап предыдущего парсинга, тогда, при повторном парсинге будут браться только новые ссылки. второе указать файл с загруженными элементами. Его надо указать явно.

    Чтобы делать такой трюк несколько раз, спарсенные ссылки просто надо суммировать, то есть собирать при каждом новом парсинге в один файл. Именно его (этот файл) и надо указывать как "файл с загруженными элементами".

    Это действительно так, программа отличнейшая. Но более всего радует Автор программы, который постоянно привносит в программу что-то новое.

    Скорее всего, для большинства сайтов есть свои хитрости, зная которые их всё же можно увидеть. В браузере же он показывается. Совсем недавно один такой сайтик вылечился по подсказке Автора программы тем, что добавил в программу новый user agent (MSIE 8.0). До этого там стоял IE и сайт был невидим. А вот чуть позже попался другой сайт, в котором вообще ничего не было видно. Его я так и не вылечил (показывало также как и при rutor.org). Надо бы собрать список таких сайтов, и попросить у Автора помощи в том, чтобы их одолеть.

    В rutor.org-е можно получить Ссылки недоступны для гостей через F6, и дальше спулить их в какой-нибудь торрент-клиент. А если нужен контент, то есть описания,- тады не знаю, как получить?
     
    Last edited: Mar 5, 2012
  2. eleon

    eleon New Member Пользователи

    Joined:
    Feb 18, 2012
    Messages:
    37
    при создании проекта вы создаете папку проекта самостоятельно чтоб все в ней хранилось, сам файл проекта при помощи Ctrl-S сохраняем в туже папку , файл с загруженными элементами когда указываете папку куда он идет вас просит создать файл(на картинке просто длинны поля не хватает чтоб видно было имя файла) , создали и все.
    при повторной загрузке проекта вам только обновить адреса страниц остается и все (выдаст все страницы и новые и старые ) но парсить будет только новые а старые пропустит.
    и спарсит в ранее указанные папки, что очень удобно открыв ты видиш что к чему.

    ну а с заливкой в макссайтЦМС воюю вот рассматриваю как альтернативу ему зебрум так как там сайтами возможно управлять прямо с 1й админки очень удобоваримо. счас на стадии теста зебрума. вордпресс однозначно тяжел для такой функции, мне не нравиться хотя к нему наворотов хоть отбавляй. не думаю что автору тяжело будет сделать плагин для вывода в данную ЦМС (я так надеюсь).(это не рекламма просто реально то что хотел от вордпреса но самому крутить не нада)
     
  3. Valiks

    Valiks New Member Супер Модератор

    Joined:
    Jan 18, 2012
    Messages:
    554
    Location:
    Всё время в скэйпе
    С программой и настройками ясно. Мы говорили об одном и тот же.

    Что касается загрузки в CMS, я лично использую другие программы, но Content Downloader способен подготовить проект к многим CMS, надо только самому создать и настроить шаблон для сохранения.

    Относительно того, чем решит автор программы дополнить в функионале не знаю, слова Автора,- поледнее.
     
  4. eleon

    eleon New Member Пользователи

    Joined:
    Feb 18, 2012
    Messages:
    37
    а вот сдесь по подробнее пожалуйста.
     
  5. Valiks

    Valiks New Member Супер Модератор

    Joined:
    Jan 18, 2012
    Messages:
    554
    Location:
    Всё время в скэйпе
    Как создать шаблон для импорта в разные CMS

    Как создать шаблон для импорта в разные CMS

    Каждый файл импорта в каждую конкретную CMS, имеет какой-то свой формат. Каждое поле, обрамлено в свои тэги. Вариантов может быть множество, но у конкретной CMS, если в ней предусмотрен импорт, обычно эти поля не меняются. Чтобы проще было бы понять, что к чему, надо увидеть уже готовый проект, и по аналогии, создать шаблон, в который и загружать спарсенное. Увидеть проект можно, если из данной CMS сначала сделать экспорт, то есть сохранить данные, и увидеть что там сохранилось.

    Могу показать пример шаблона для Вордпресс. Несмотря на то, что в программе заготовка уже существует, с помощью этого примера спарсенное можно сохранять прямо в файл импорта. По аналогию создаётся файл для других CMS.

    Code:
    <?xml version="1.0" encoding="utf-8"?>
    <!-- generator="Кто-то там" created="29.10.2011 19:22:56"-->
    <rss version="2.0"
    	xmlns:jos="Непонятно что"
    >
    	<channel>
    		<jos:jxr_version>1.0</jos:jxr_version>
    		<jos:category><jos:category_nicename>vse-dlya-devushek</jos:category_nicename><jos:category_parent></jos:category_parent><jos:cat_name><![CDATA[Все для девушек]]></jos:cat_name><jos:level>1</jos:level><jos:path>vse-dlya-devushek</jos:path></jos:category>
    		<user><name>admin</name><regdate>1319882146</regdate><lastact>1320580841</lastact><articles>9</articles><messages>0</messages></user>
    
    		<item>
    			<title>Мобильный телефон глазами девушки</title>
    			<alt_name>mobilnyj-telefon-glazami-devushki</alt_name>
    			<introtext:encoded><![CDATA[    <p align="justify">Какойто-то текст</p>
    ]]></fulltext:encoded>
    			<meta_description>Текст для мета </meta_description>
    			<meta_keywords>подарить, друг, жена, женщина, слово, мама, мобильный</meta_keywords>
    			<category>vse-dlya-devushek</category>
    			<category_title>Все для девушек</category_title>
    			<date>2011-10-30 10:02:58</date>
    			<author>admin</author>
    		</item>
    </channel>
    </rss>
    Это примерный образец файла импорта в Вордпресс. Отсюда нетрудно проанализировать, как создать шаблон в Content Downloader-е. Наши <CD_GRAN_1!> вставляются между тэгами, которые соответствуют наполнению,- Категория (<category>), Дата (<date>), и так далее.

    Самый простой вариант, скопировать один вот такой шаблон в поле создания шаблонов Content Downloader-а, и там потихоньку задать все необходимые поля. надо только помнить, что парсить надо будет в один файл, и что в этот файл после окончания надо будет проставить тэги начала и конца файла. В приведённом случае это
    Code:
    <channel>
    <rss>
    ... . . . . . . . . . . . . . . . 
    </channel>
    </rss>
    ну и то, что стоит в шапке, то есть вот это

    Code:
    <?xml version="1.0" encoding="utf-8"?>
    <!-- generator="Кто-то там" created="29.10.2011 19:22:56"-->
    <rss version="2.0"
    	xmlns:jos="Непонятно что"
    >
    <item> - сюда парсится тело статьи.

    Нам в шаблоне CD надо создать что-то типа такого
    Code:
    <item>
    			<title><CD_GRAN_1!></title>
    			<alt_name><CD_GRAN_2!></alt_name> (здесь с параметрами конвертации в транслит и так далее)
    			<introtext:encoded><![CDATA[    <p align="justify"><SHORT len="250" //><CD_GRAN_3!></SHORT></p>
    <fulltext:encoded><![CDATA[</p>
    <CD_GRAN_3!>
    			<meta_description><SHORT len="150" //><CD_GRAN_3!></SHORT> </meta_description>
    			<meta_keywords><CD_GRAN_4!></meta_keywords>
    			<category><CD_GRAN_5!>(конвертация в транслит)</category>
    			<category_title><CD_GRAN_5!></category_title>
    			<date><CD_GRAN_6!></date>
    			<author>admin</author>
    		</item>
    Это всё очень приблизительное объяснение, я, как уже было сказано, этим не пользуюсь. Чтобы получалось идеально, надо немного поэкспериментировать, и, лучше всего создать шаблон для Content Downloader-а, который будет использоваться в инструменте "Обработка и импорт в КМС". Но, при желании, можно и таким способом создавать прекрасные файлы для импорта в CMS. Главное желание, терпение и немного потраченного времени. Один раз промучался, и сделал себе шаблон на долгое время для любимой CMS-ки.

    Если чего-то недоглядел, в чём-то ошибся,- не серчайте,- моё описание не претендует на учебник, я объяснил принцип создания, здесь нет готового рецепта.
     
  6. Benjamin Coleman

    Benjamin Coleman New Member Пользователи

    Joined:
    Oct 23, 2010
    Messages:
    152
    Снова предложение по улучшению: сделайте, пожалуйста, чекер наличия текста в сканере сайта:

    То есть возможность добавлять или нет ссылку в результаты по наличию текста на странице (а не только ссылкам), да, понимаю, что медленно будет, но иногда очень, очень полезно.
     
  7. Valiks

    Valiks New Member Супер Модератор

    Joined:
    Jan 18, 2012
    Messages:
    554
    Location:
    Всё время в скэйпе
    Фильтрация ссылок и текста

    Если я правильно понял ваше пожелание, то могу ответить, что всё это в программе уже есть.

    1. Вы можете настроить "Дополнительные опции"

    Ссылки недоступны для гостей

    задать длину статьи, которая будет загружаться.

    2. Другое, можно задать фильтр по ключевикам

    3. Если заданные границы парсинга не содержат данных, то сслыка не загружается

    Если же вы имели ввиду, что в момент собирания ссылок проверять наличие чего бы то ни было на странице, то в этом случае программа вообще теряет смысл. Все задачи решаются поэтапно. Посмотрите Ссылки недоступны для гостей, повнимательнее, особенно тему "Ссылки недоступны для гостей", там много ответов найдёте.

    Ссылки недоступны для гостей

    4. Кроме того, в настройках "Дополнительные гринцы парсинга", есть опция "Обязательна". Если поставить галочку, тогда, в случае если данная граница парсинга будет пустой, документ не загрузится. На картинке выше это хорошо видно.
     
    Last edited: Mar 15, 2012
  8. Benjamin Coleman

    Benjamin Coleman New Member Пользователи

    Joined:
    Oct 23, 2010
    Messages:
    152
    Valiks, большое спасибо за ответ, особенно, за п.4 - про него как-то и забыл. Но это всё не то.

    Просто бывают такие случаи, когда признак того, что нужно выпарсить можно найти только по тексту на странице, и если, скажем, шоп на 1,5 миллиона, страниц, то несколько не целесообразно сначала собирать эти 1,5 ляма страниц, потом все их парсить, и потом делать выборку нужных 10%, например. Поэтому было круто бы отсеять ненужное еще на этапе сборки страниц

    Ладно, в конце концов, у меня есть инструменты (например, в xrumer) - которые делают эту действительно простую операцию, просто хотелось, бы это видеть в Content Downloader.
     
  9. Valiks

    Valiks New Member Супер Модератор

    Joined:
    Jan 18, 2012
    Messages:
    554
    Location:
    Всё время в скэйпе
    Хотелось, бы это видеть в Content Downloader

    Реклама xrumer-а, это конечно дело хорошее, но, что-то сомневаюсь я, что ваш xrumer способен проанализировать всё содержимое 1,5 миллионов страниц, в считанные секунды, и выбрать только те из них, которые отвечают вашим запросам. Но, это дело xrumer-а.

    Что касается Content Downloader-а, похоже, вы даёте правильный алгоритм его работы.
    Если настроить все фильтры правильно, то программа отсеет ненужное сразу, вам не нужно будет делать никакой выборки, вы ненужные страницы просто не увидите в спарсенном контенте.

    Я конечно, завидую вам. Автору программы мы передадим вашу просьбу. Но, может быть заодно и предложить изменить тогда цену на Content Downloader, сделать её соразмерной с xrumer-ом? Чего мелочиться?
     
  10. Benjamin Coleman

    Benjamin Coleman New Member Пользователи

    Joined:
    Oct 23, 2010
    Messages:
    152
    xrumer - сабмитер, там просто есть доп. инструмент анализа ссылок, он (многопоточно) пробегает по ссылкам и ищет текст или же http-заголовок страницы. Ни о какой рекламе речи не шло, программы разного профиля совершенно.

    Вот о чем и речь, я столкнулся с тем, что по ссылке не определить, нужна она или нет, только на самой странице текст об этом.
     
  11. Valiks

    Valiks New Member Супер Модератор

    Joined:
    Jan 18, 2012
    Messages:
    554
    Location:
    Всё время в скэйпе
    Content Downloader - Сначала ссылка, потом анализ

    Вам просто нужна поисковая машина внутри программы? Чтобы получать в Content Downloader подобные ссылки, надо изучить способ выдачи ссылок ПС, например: "GET параметры поиска Yandex" задать поиск таких ссылок, но, вы получите не реальную картину, а ту, которую вам выдадут поисковики, через которые будет сформирована ссылка.

    То на что способен xrumer, я не изучал. Поиск ссылок по признаку и сбор ссылок с сайта, это не одно и то же, хотя, в чём-то совпадает. Все программы типа xrumer-а, с которыми приходилось работать, обращаются, при поиске ссылок, к ПС, они не анализируют сайт. Делайте выводы о качестве ссылок, которые вы получите. Яндекс, да и Гугле хранит у себя в базще только то, что они считают нужным. Но, даже яндекс, прежде чем изучить содержание страницы, сначала обращается к ссылке, потом анализирует содержимое.
    Правильная мысль, но неправильные выводы и требования. Ссылка это одно, а содержимое страницы, это другое. Вы не можете анализировать то содержимое, ссылки на которое у вас нет. Сначала ссылка, потом анализ, наоборот не бывает.

    Однако, я не программист, может быть чего-то недопонимаю, буду рад если покажете мне иную схему работы
     
  12. Benjamin Coleman

    Benjamin Coleman New Member Пользователи

    Joined:
    Oct 23, 2010
    Messages:
    152
    Нет, ни о какой поисковой системе и тем более Яндексе я не писал. А также о "способе выдачи ссылок ПС". Просто получить содержимое странички и проверить наличие текста на оной, вот и всё. Если есть, то добавляем список задания, нет - не добавляем.

    Технически, я уверен, это несложная функция. Ссылки недоступны для гостей для примера (тоже написан на delphi, кстати).

    Не требование, просто предложение. Топик для предложений :)
     
  13. Valiks

    Valiks New Member Супер Модератор

    Joined:
    Jan 18, 2012
    Messages:
    554
    Location:
    Всё время в скэйпе
    К чему эти примеры? Там есть зараннее заданная база ссылок, которую надо иметь, а потом только хрумер проведёт анализ. Откуда он эти ссылки взял? Это программа для спама.

    Content Downloader решает на данный момент гораздо более сложные задачи, гораздо эффективнее и быстрее. Задайте ту же самую базу ссылок в Content Downloader и проделайте ту же самую операцию, и убедитесь. Вот чего не хватает Content Downloader-у, так это возможности добавления в существующий инструмент фильтрации, варианта выбора нескольких позиций границ парсинга, во всём остальном, всё есть.
     
  14. Dimit

    Dimit New Member Пользователи

    Joined:
    Mar 19, 2012
    Messages:
    7
    Предложение: добавить к имеющимся в программе макросам вывода WP еще один для создания содержимого ячейки "Цитата", [EXCERPT][/EXCERPT]
     
  15. Valiks

    Valiks New Member Супер Модератор

    Joined:
    Jan 18, 2012
    Messages:
    554
    Location:
    Всё время в скэйпе
    Обсуждение самой задачи в данной теме
     
  16. bork75

    bork75 New Member Пользователи

    Joined:
    Sep 2, 2010
    Messages:
    97
    Предлагаю сделать {num}, кнопочкой.
    Кликнул и {num} вписалось на место курсора. мелочь. но часто используемая фишка

    [​IMG]
     
    Last edited: Mar 20, 2012
  17. Valiks

    Valiks New Member Супер Модератор

    Joined:
    Jan 18, 2012
    Messages:
    554
    Location:
    Всё время в скэйпе
    Сохранение ссылок спарсенного контента

    В одной из тем возник вопрос, который перперос в потребность создания дополнения в программе. Вот примерное ТЗ, хотелось бы чтобы высказались и другие пользователи

    Говорил с автором программы, объяснил что нужно. Будет сделана дополнительная функция в программе, сейчас пока что нет возможности. В течение нескольких дней будет такая опция.

    В общем задачу я понял так.
    - есть список, к примеру 1000 ссылок
    - создали фильтр, скачалось, к примеру, 224 ссылки
    - нужно в отдельный файл получить ссылки на данные 224 статьи


    Если правильно понял, подтвердите, если нет,- поясните.
    Если у кого-то есть другие пожелания к этой задаче, связанной со ссылками - подсказывайте.

    Кроме этого, будет сделана опция сохранения спарсенных ссылок на картинке при Гугле парсинге картинок.

    Сколько времени уйдёт? Парочка дней
     
  18. Yurijd

    Yurijd New Member Пользователи

    Joined:
    Mar 29, 2011
    Messages:
    18
    А можно ли как то сделать в программе, чтобы при парсинге тайтлов с сайта, она
    превращала их в анкоры для каждой конкретной страницы? Очень нужно для своих сайтов при покупке ссылок к примеру.
     
  19. Valiks

    Valiks New Member Супер Модератор

    Joined:
    Jan 18, 2012
    Messages:
    554
    Location:
    Всё время в скэйпе
    Это надо написать не сюда, такое в программе уже возможно сделать.
    Кроме всего есть программа, бесплатная "Ссылки недоступны для гостей", которая тоже может вам в этом деле помочь
     
  20. kagorec

    kagorec Администратор Staff Member Администратор

    Joined:
    Jan 3, 2011
    Messages:
    4,442
    Location:
    Latvia
    это ведь давно сделано :)
    F2 - {num}
    F3 - {key}
     

Share This Page