Парсинг описания

Тема в разделе "Решение различных задач по парсингу", создана пользователем Grafin, 14 дек 2018.

  1. Grafin

    Grafin Member Пользователи

    Регистрация:
    14 ноя 2018
    Сообщения:
    130
    Город:
    Киров
    Здравствуйте.
    Не думал, что блок описания неидентичен на одном и том же сайте.
    Теги тоже отличаются. Где-то <p> и </p>, а где-то <br />
    Не понимаю как собрать описания. Универсальная настройка не получается.
    вот блок одной карточки по которой я смог настроиться.
    upload_2018-12-14_17-39-48.png

    А под эти уже нужно иначе.
    upload_2018-12-14_17-37-42.png
    upload_2018-12-14_17-38-55.png
     
  2. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.579
    поиск/заменой приведите теги в 1 вид, например поменяйте на <1234></1234> и потом собирайте из них
     
  3. Grafin

    Grafin Member Пользователи

    Регистрация:
    14 ноя 2018
    Сообщения:
    130
    Город:
    Киров
    Не смог разобраться как взять описание. Не смог привязаться к замене, чтобы лишнего ниже не взять
    Карточки разные, посмотрите пожалуйста
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
     
  4. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.579
    Здравствуйте
    ну вот вы задали вопрос, но опять же ничего не уточнили
    1) в описание входит только выделенный текст? см. картинку или и другие блоки тоже? если не так выделил, приложите картинки с выделенным описанием, не то что вы посылали в 1-м посте, а так как это выглядит у меня
    2) картинки забираются или удаляются? что делать с ссылками?
    3) текст должен быть без тегов или с тегами

    Снимок.PNG
     
  5. Grafin

    Grafin Member Пользователи

    Регистрация:
    14 ноя 2018
    Сообщения:
    130
    Город:
    Киров
    По порядку из ссылок
    upload_2018-12-15_12-10-15.png
    upload_2018-12-15_12-11-18.png
    upload_2018-12-15_12-11-51.png
    upload_2018-12-15_12-12-34.png
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    12.010
    Вы можете представить алгоритм, чтобы программно отсечь лишнее? Если да, предложите.
     
  7. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.579
    Все как обычно, структурировано, последовательно и методом исключения
     

    Вложения:

    • lbz_ru.cdp
      Размер файла:
      42,3 КБ
      Просмотров:
      2
  8. Grafin

    Grafin Member Пользователи

    Регистрация:
    14 ноя 2018
    Сообщения:
    130
    Город:
    Киров
    Спасибо. Некоторые слова стали без пробелов.
    upload_2018-12-15_15-43-4.png
    К этой карточке не подошла настройка, текст не взят Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    Извините, что не сразу ее выложил.
     
  9. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    3.741
    Город:
    Riga
    Когда начинал с CD работать то такие задачи решал путем указания границы "с хорошим запасом" и далее просто лишнее отсекается через поиск замену.
     
  10. Grafin

    Grafin Member Пользователи

    Регистрация:
    14 ноя 2018
    Сообщения:
    130
    Город:
    Киров
    Да, я уже понял, что нужно глубоко проработать отсечку лишего. Иначе видимо никак в данном случае.
    Надеялся на "бывалых" и более быстрые программные решения )))
     
    Последнее редактирование: 15 дек 2018
    kagorec нравится это.
  11. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.579
    Найти другой сайт, в котором более структурированная информация)
     

Поделиться этой страницей