Проба пера на примере auto-novosti.ru

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем Воланд, 14 июл 2012.

  1. Воланд

    Воланд New Member Пользователи

    Регистрация:
    14 июл 2012
    Сообщения:
    9
    Здравствуйте Уважаемые форумчане. Сегодня купил программу и как водится начал разбираться. Ну слава Богу не первый год замужем, кое что допер сам, кое что естественно подчерпнул в ФАК ( кстати о птичках, составителю сказать бы огромное спасибо с занесением в грудную клетку ибо способ подачи материала просто никакой, человек который к примеру такие программы первый раз видит ничего бы не понял, ну да ладно)
    Попробовал несколько раз, естественно получилось криво, начал разбираться, допер до фильтров (фильтры ссылок) выставил их, ссылок стало в разы меньше. А вот далее столкнулся с проблемой ( думаю все новички с такой сталкиваются)-это задать границы. Значит почитал ФАК (опять же с мыслью убить составителя) и вот какие выводы сделал:
    Программа парсит тупо сам код, что бы получить чистый текст нам надо убрать оттуда весь html мусор, для чего в принципе и используются границы.
    Итак вот после некоторых манипуляций в итоге я получаю вот это:

    вот если не трудно обьясните мне идиоту как его очистить от этой грязи? страниц там куева туча и руками все это чистить-нафиг тогда я прогу покупал, HTTracker с этим то же неплохо справляется.
    Какие границы задавать? почему нет кнопочки "очистить от кода", ведь как я понимаю сделать её не составляет труда, вбить в базу все тэги, и при нажатии на кнопку прога будет удалять то что нашла в базе
     
  2. paul

    paul New Member Пользователи

    Регистрация:
    20 мар 2012
    Сообщения:
    12
    Так такая кнопка уже давно есть: "htm to txt" .Где можно выбрать какие теги оставлять, а какие удалять
     
  3. Воланд

    Воланд New Member Пользователи

    Регистрация:
    14 июл 2012
    Сообщения:
    9
    а я дурак думал, что эта кнопка для того, что бы если ты спарсил страницу в html можно было в txt формат перевести, не затрагивая код.
    Сейчас попробую...
     
  4. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Так оно и есть. Преобразование в тхт произойдёт, да ещё и в зависимости от настроек которые вы зададите

    Что касается остальных претензий, Content Downloader - это не софт для детей-первоклассников, не надо думать, что его можно будет освоить по принципу,- "купил, установил", а дальше "программа сама всё сделает". В программе всё сделано таким образом, чтобы предоставить пользователю как можно больше возможностей, и главное, как можно больше свободы. То есть вариантов решения одной и той же задачи может быть очень много. Content Downloader программа творческая.
     
    Последнее редактирование: 14 июл 2012
  5. Воланд

    Воланд New Member Пользователи

    Регистрация:
    14 июл 2012
    Сообщения:
    9
    ну я спокойно в настройках указал что хочу на выходе видеть текстовый файл и поставил галочку на html to txt и все отлично сработало ;)

    Насчет остального, у меня нет претензий к программе, были бы я бы писал непосредственно Админу и разработчику, просто на странице, с продажей программы можно было бы и написать что требуется некоторая подготовка, а то у кого не спрашиваю, что мол за программа они не пользовавшись ею с уверенностью говорят что вбиваешь адрес сайта.........и все.....вот такое мнение у людей....
    А то, что там должно быть хотя бы минимальное знание html, креативный мозг никто не предупреждает :D
     
  6. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.429
    Адрес:
    Latvia
    Если есть хоть молейшие знания html, то с программой разберетесь, не сразу конечно, а по мере работы с пробами и ошибками но далее будет контент получаться идиальным.
     
  7. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Это как бы само собой понятно, что для полноценой работы в инете требуются хотя бы минимальные знания.

    Правильно вам сказали. Это ещё раз поджтверждает мнение, что изучить программу несложно, если не ждать, что знание само упадёт с неба.

    Сейчас любая уборщица, которая завела себе дневник на Лиру (или в другом месте), владеет основами html, если не остановилась на уровне тупого цитирования чужих сообщений. Софт для парсинга, наподобие Content Downloader-а, по определению покупают те, кто создаёт сайты а не просто ведёт где-то дневничок.
     
  8. Воланд

    Воланд New Member Пользователи

    Регистрация:
    14 июл 2012
    Сообщения:
    9
    Все Вы конечно правильно говорите, только насчет уборщиц переборщили, html сейчас знают не так и много людей, которые занимаются сайтами, и эти люди скорее старой школы, которые делали сайты ещё до появления CMS в голом блокноте.
    Сейчас же огромное количество веб мастеров ( если их конечно можно так назвать) ограничиваются установкой КМС+ паблик шаблон.
     
  9. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Речь идёт об элементарных знаниях. Их осваивают очень легко все, кто не остановился на визуальном редакторе. К сожалению, большинство блогов с дневниками имеют крайне скудные возможности, так что если кто хочет чтобы его блог хоть немного отличался от остальных, лезут в код.

    Есть такие. наверное. Но совсем без знания html вряд ли можно создать полноценный сайт. Хоть что-то но приходиться переделывать. Ну, к примеру счётчики в виджет кинуть, или в шаблон. А дальше, если уж совсем не олух, хочется эти счётчики выровнять и так далее.

    Вопрос в том, что каждый новый инструмент приходится изучать. А Content Downloader - инструмент, имеющий огромные возможности, потому нахрапом не познаётся. К сожалению, к нему, также как и к пылесосу Домработница не прилагается.
     

Поделиться этой страницей