Что делать со спарсенными страницами?

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем vihtor, 3 июн 2013.

  1. vihtor

    vihtor New Member Пользователи

    Регистрация:
    3 июн 2013
    Сообщения:
    5
    Я вообще не могу понять принципа парсинга. Ну вот я напарсил Html-страниц, а дальше что с ними делать. Вручную вставлять каждую страницу в шаблон, добавлять ссылки?
    Или напарсил страниц в один файл CSV, а дальше что с ним делать?
     
  2. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.429
    Адрес:
    Latvia
    Попробуйте прочитать справочную информацию как начать парсить сайт Ссылки недоступны для гостей . Весьма подробно описано с указаниями пунктов на сриншотах.
     
  3. vihtor

    vihtor New Member Пользователи

    Регистрация:
    3 июн 2013
    Сообщения:
    5
    Я всё прочитал, но ответ на свой вопрос не нашёл.
    Думаю парсить простые html-страницы. Но как сделать так, чтобы ваш парсер делал спарсенные страницы на нужном мне шаблоне. Как бы это правильно выразиться... Как в парсер вставить шаблон, что ли? Если это есть в где-то в FAQ, дайте прямую ссылку. Может я что-то пропустил.
     
  4. SinnerNN

    SinnerNN New Member Пользователи

    Регистрация:
    13 июл 2012
    Сообщения:
    2
    В закладке "Контент" ставишь галочку "использовать шаблон вывода", дальше его настраиваешь как тебе необходимо.
     
  5. vihtor

    vihtor New Member Пользователи

    Регистрация:
    3 июн 2013
    Сообщения:
    5
    Причём здесь Шаблон вывода. Эта функция описана здесь: Ссылки недоступны для гостей ("Шаблон вывода используется в тех случаях, когда необходимо изменить порядок вывода границ парсинга").
    С границами парсинга всё понятно.
    Я спросил как сделать парсинг на свой шаблон сайта, ну или на свой дизайн, что ли? А то напарсю html-страниц, а потом вручную переносить на свой шаблон? Так что ли?
    Дайте ссылку в Интернете на уже напарсенные страницы. Хочу взглянуть на код этих страниц.
     
  6. vihtor

    vihtor New Member Пользователи

    Регистрация:
    3 июн 2013
    Сообщения:
    5
    P.S. А чтобы ввести Шаблон изменяющейся части (num) - границ парсинга, мне ещё надо выучить программирование по составлению регулярных выражений? Ну, знаете, это уже слишком!
     
  7. nikolas1612

    nikolas1612 Member Пользователи

    Регистрация:
    27 ноя 2011
    Сообщения:
    439
    вам ведь уже все обьяснили. создаётся впечатление что вы невнимательно ознакомились с системой помощи к программе, не знаете базовых основ работы с нею и ещё выражаете по поводу этого незнания неудовольствие.

    повторю тех, кто отвечал выше, но подробнее. суть парсера состоит в массовом извлечении нужных вам кусков информации с сайта-донора по определенному шаблону. и все. он не обязан создавать вам сайт с нуля и что-либо ещё.
    чтобы получить на выходе информацию в том виде, как вам требуется - у парсера есть мощнейшее средство- ШАБЛОН ВЫВОДА. его используют практически всегда. иначе на выходе получается как раз то о чем вы говорите - "напарсить страниц".
    суть шаблона не только в изменении очередности границ парсинга. он универсален. введите в него все, что угодно - и это появится в итоговом документе. фактически это пустая страница на которой вы сами, как в конструкторе, из отдельных кусочков лепите свой документ, при желании разбавляя его код теми элементами, которые напарсила программа (для ввода этих элементов служат макросы шаблона ввода)

    итого - очищаете окно шаблона от всех границ которые в нем прописаны по умолчанию' вставляете в него код собственной страницы - и в тех его местах где требуется - макросы границ парсинга. и получаете на выходе свои странички с чужим контентом.

    p.s. если я ответил невпопад - переформулируйте вопрос.

    p.p.s. насчёт рег. выражений и (num) - кажется что-то напутали. вообще никакой связи. рег. выражения в программе нужны крайне редко, ещё функционал в 98% случаев позволяет обойтись без них. место регулярных выражений -в функциях поиска-замены. num тут вообще не при чем.
     
    Последнее редактирование: 4 июн 2013
  8. vihtor

    vihtor New Member Пользователи

    Регистрация:
    3 июн 2013
    Сообщения:
    5
    Вот именно, что парсер не создаёт сайт. Значит напарсил страниц, а затем вручную делаешь сайт. Или по одной странице загружаешь на какую-нибудь CMS-ку.
    В таком случае нужные куски информации с сайта-донора я могу брать, сдирая вручную кусок html-кода и вставляя его в шаблон сайта. Или, вообще, копировать текст и вставлять в wysiwyg-редактор.
    Тогда при каких делах здесь парсер? Зачем мне массовые куски информации на компьютере?
    Или ваш парсер предназначен для пользователей, у которых Dial-Up соединение с Интернетом? Т.е. напарсил страниц, отключился от Интернета и сиди себе создавай веб-страницы. Но для таких целей существуют бесплатные сайтососы.
    Вообщем, у меня постоянное подключение к Интернету и мне пока не понятно, каким образом я могу использовать ваш парсер для быстрого наполнения сайта контентом.

    КСТАТИ, не по теме. Эта страница форума (по-видимому и другие) открывается по нескольким адресам.
    К примеру:
    http://forum.sbfactory.ru/showthread.php?p=5850#post5850
    http://forum.sbfactory.ru/showthread.php?t=1078
    Значит Гугловский аккаунт забит сообщениями о повторяющихся мета-тегах title. Такая же хрень как у меня.
     

Поделиться этой страницей