Несколько вопросов по парсингу статьи

Тема в разделе "Обработка данных при парсинге во вкладке "Контент"", создана пользователем mcreper, 22 дек 2016.

  1. mcreper

    mcreper Member Пользователи

    Регистрация:
    26 ноя 2016
    Сообщения:
    23
    Здравствуйте. Скорее всего, вопросы простые, но, к сожалению, сам не могу найти их решения.
    1. При парсинге статьи с рисунками нужно удалить атрибуты рисунка. А именно вместо
    Код:
    <img src="images/ispolzovat-usloviyah-1.jpg" alt="Блэк маска" width="600" height="364" srcset="images/ispolzovat-chernuyu-masku-domashnih-usloviyah-1.jpg 600w" sizes="(max-width: 600px) 100vw, 600px" />
    оставить только
    Код:
    <img src="images/ispolzovat-usloviyah-1.jpg" alt="НОВЫЙ" title="НОВЫЙ" width="600">
    2. Нужно спарсить только 200 первых символов (букв) в тексте.

    3. Нужно после 200 первых символов в тексте поставить <hr id="system-readmore" />
    Позже спарсить весь текст, который будет после <hr id="system-readmore" /> или после определенного количества символов. - (ТЕКСТ будет меняться)

    Когда-то для данных задач я использовал ОБРАБОТКА И ИМПОРТ В КМС, но теперь надо напрямую записать статьи в SQL, поэтому данный вариант мне не подходит.

    Буду благодарен за любые советы.
     
  2. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.433
    Адрес:
    Latvia
    Поиск-замена примените
    Код:
    srcset="{skip}"|
    sizes="{skip}"|
     
    Coder7, Root и mcreper нравится это.
  3. mcreper

    mcreper Member Пользователи

    Регистрация:
    26 ноя 2016
    Сообщения:
    23
    Большое спасибо, действительно все оказалось просто ... ... А на счет 2 и 3 вопроса, возможно существуют макросы, которые позволяют парсить лишь определенное количество символов с начала текста или вставлять код после определенного количества символов?
     
    Root нравится это.
  4. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.433
    Адрес:
    Latvia
    Используйте поиск в шаблоне вывода (сверху слево)
    <SHORT>
    <IMORE>
     
    Coder7, mcreper и Kreol нравится это.
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    3.) [REPLACE(<!--more-->|<hr id="system-readmore" />)]<IMORE len="250" end=".|!|?" //>...</IMORE>[/REPLACE]
     
    Coder7 и mcreper нравится это.
  6. mcreper

    mcreper Member Пользователи

    Регистрация:
    26 ноя 2016
    Сообщения:
    23
    Большое спасибо. Работает ...
     
    Root нравится это.
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Пожалуйста...
     
  8. mcreper

    mcreper Member Пользователи

    Регистрация:
    26 ноя 2016
    Сообщения:
    23
    Если не сложно, еще одна просьба.
    Есть код
    Код:
    <img src="images/kak-ushit-dzhinsovuyu-yubku-prosto-i-krasivo1.jpg" width="600" height="400" /> текст
    Нужно, чтобы осталось
    Код:
    <img src="images/kak-ushit-dzhinsovuyu-yubku-prosto-i-krasivo1.jpg"/> текст
    Пробую через поиск-замена
    Код:
    <img {get} width{skip}/>|<img {get}/>
    Но тогда пропадает весь текст после <img {get}/>
    Не могу подобрать правильного решения ...

    P.S. width="{skip}"| не подходит, так как нужно сохранить другой код <iframe width="620" height="349" >
     
  9. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.433
    Адрес:
    Latvia
    Чтобы очистить тег img от всех лишних значений кроме src, используйте регулярное выражение
    Код:
    re:<img[^<>]*src="([^\"<>]+)"[^<>]*>|<img src="$1"/>
     
    Coder7 и Kreol нравится это.

Поделиться этой страницей