Парсинг описания

Тема в разделе "Решение различных задач по парсингу", создана пользователем Grafin, 14 дек 2018.

  1. Grafin

    Grafin Member Пользователи

    Регистрация:
    14 ноя 2018
    Сообщения:
    130
    Город:
    Киров
    Здравствуйте.
    Не думал, что блок описания неидентичен на одном и том же сайте.
    Теги тоже отличаются. Где-то <p> и </p>, а где-то <br />
    Не понимаю как собрать описания. Универсальная настройка не получается.
    вот блок одной карточки по которой я смог настроиться.
    upload_2018-12-14_17-39-48.png

    А под эти уже нужно иначе.
    upload_2018-12-14_17-37-42.png
    upload_2018-12-14_17-38-55.png
     
  2. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    поиск/заменой приведите теги в 1 вид, например поменяйте на <1234></1234> и потом собирайте из них
     
  3. Grafin

    Grafin Member Пользователи

    Регистрация:
    14 ноя 2018
    Сообщения:
    130
    Город:
    Киров
    Не смог разобраться как взять описание. Не смог привязаться к замене, чтобы лишнего ниже не взять
    Карточки разные, посмотрите пожалуйста
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
     
  4. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Здравствуйте
    ну вот вы задали вопрос, но опять же ничего не уточнили
    1) в описание входит только выделенный текст? см. картинку или и другие блоки тоже? если не так выделил, приложите картинки с выделенным описанием, не то что вы посылали в 1-м посте, а так как это выглядит у меня
    2) картинки забираются или удаляются? что делать с ссылками?
    3) текст должен быть без тегов или с тегами

    Снимок.PNG
     
  5. Grafin

    Grafin Member Пользователи

    Регистрация:
    14 ноя 2018
    Сообщения:
    130
    Город:
    Киров
    По порядку из ссылок
    upload_2018-12-15_12-10-15.png
    upload_2018-12-15_12-11-18.png
    upload_2018-12-15_12-11-51.png
    upload_2018-12-15_12-12-34.png
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Вы можете представить алгоритм, чтобы программно отсечь лишнее? Если да, предложите.
     
  7. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Все как обычно, структурировано, последовательно и методом исключения
     

    Вложения:

    • lbz_ru.cdp
      Размер файла:
      42,3 КБ
      Просмотров:
      3
  8. Grafin

    Grafin Member Пользователи

    Регистрация:
    14 ноя 2018
    Сообщения:
    130
    Город:
    Киров
    Спасибо. Некоторые слова стали без пробелов.
    upload_2018-12-15_15-43-4.png
    К этой карточке не подошла настройка, текст не взят Ссылки недоступны для гостей
    Извините, что не сразу ее выложил.
     
  9. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.429
    Адрес:
    Latvia
    Когда начинал с CD работать то такие задачи решал путем указания границы "с хорошим запасом" и далее просто лишнее отсекается через поиск замену.
     
  10. Grafin

    Grafin Member Пользователи

    Регистрация:
    14 ноя 2018
    Сообщения:
    130
    Город:
    Киров
    Да, я уже понял, что нужно глубоко проработать отсечку лишего. Иначе видимо никак в данном случае.
    Надеялся на "бывалых" и более быстрые программные решения )))
     
    Последнее редактирование: 15 дек 2018
    kagorec нравится это.
  11. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Найти другой сайт, в котором более структурированная информация)
     

Поделиться этой страницей