Помогите разобраться

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем pps88, 8 янв 2015.

  1. pps88

    pps88 New Member Пользователи

    Регистрация:
    3 янв 2015
    Сообщения:
    24
    паршу:
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    Граница 1: Название статьи
    Граница 2: Текст до картинки 1
    Граница 3: Картинка 1
    Граница 4: Текст от картинки 1 до картинки 2
    ...... далее по шаблону

    Могу ли я построить такую структуру и каким образом мне это сделать:
    Это повторяющиеся границы или нет?
    При указании границы 4 мне понимать что парсер будет искать ее начало после границы 3 или будет искать указанный тег с начала веб страницы?
    Спарсить всю страницу целиком мне не совсем подходит, так как своеобразно обрабатываю полученную информацию.
    Подскажите в каком направлении двигаться.
     
  2. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Здравствуйте, для начала стоит ознакомится с системой помощи и изучить, что да как вообще работает. Видеоматериала предостаточно. Ссылки недоступны для гостей
    Во вторых, составить грамотное ТЗ в виде, хочу спарсить так так и так.
    И приложить например картинку.
    Перестать писать домыслы, что будет, если я.... попробуйте и узнаете, а если не хотите пробовать, то не пишите о "своеобразно обрабатываю полученную информацию"
     
  3. pps88

    pps88 New Member Пользователи

    Регистрация:
    3 янв 2015
    Сообщения:
    24
    Оффтоп. Извините что Вас потревожил, но я несколько вечеров смотрел видео + два вечера пробовал парсить. Да, я новичек, но если не ошибаюсь то это форум поддержки, и шкалы простоты вопроса не заметил. Если она есть то я обязательно буду ее соблюдать.

    Не оффтоп. Я не прошу рабочий проект, я прошу указать мне направление работы. Ведь в силу своих ограниченных знаний могу копать не туда. Касательно ТЗ: ссылка есть, что хочу можно сказать на пальцах обьяснил.

    Информация: я при помощи парсера хочу подготовить полностью готовый шаблон страницы в html - чтобы потом без переделок заливать постером. И мне удобнее информацию обрабатывать если картинки отдельно - а текст отдельно. Пример того чего хочу добиться.

    <h1>Заголовок</h1>
    <p>Текст до картинки 1</p>
    <img src="путь и название картинки" alt="Картинка 1">
    <p>Текст между картинками 1 и 2</p>
    <img src="путь и название картинки" alt="Картинка 2">
    <p>Текст между картинками 2 и 3</p>
    <img src="путь и название картинки" alt="Картинка 3">
    ........
    <p>Текст между картинками n-1 и n</p>
    <img src="путь и название картинки" alt="Картинка n">

    Число n заранее мне не известно.
     
    Последнее редактирование: 8 янв 2015
  4. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Простите если обидел, не хотел.
    Вы просто берете границу #1 и вставляете ее в проект, граница у вас весь текст с картинками. парсим в html или txt c тегами.
     
  5. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.433
    Адрес:
    Latvia
    Тоесть вы хотите из новости поделить на краткую и продолжение?
    Статью на две части, разделителем/меткой служит первая картинка в статье.
    Отдельной границей цепляете статью без обработки htmtotxt
    В дополнительной настройке границ в поиск-замена применить то что недавно писалось на форуме "как отметить первую картинку" http://forum.sbfactory.ru/showthread.php?p=14637

    Но с пунктом 4 конечно могут быть сложности
    ------
    Плюс еще использовать повторяющиеся границе в области статьи которые цепляют циклы тоесть картинки и потом в шаблоне вывода вполне можно так вывести ваш формат.
     
    Последнее редактирование: 8 янв 2015
  6. pps88

    pps88 New Member Пользователи

    Регистрация:
    3 янв 2015
    Сообщения:
    24
    Спасибо, буду пробовать. Чтобы не плодить задам здесь:
    Хочу из хлебных крошек вытащить категории:
    1) На сайте есть структура: Сайт города Донецка / Справочник / Авто / Автострахование / Центр страховых услуг Донецк. Автострахование в Донецке.
    Но она мне не совсем подходит, убираю первые два пункта:
    2) прописываю в поиске-замене следующее: {skip}/{skip}/| и получаю
    Авто / Автострахование / Центр страховых услуг Донецк. Автострахование в Донецке.
    Но последний пункт (Центр страховых услуг Донецк. Автострахование в Донецке.) название статьи, как мне его отрезать?
    Хочу получить: Авто / Автострахование
     
    Последнее редактирование: 8 янв 2015
  7. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    добавьте в поиск/замену
    Код:
    /{skip}|
     

Поделиться этой страницей