Разбивка текста на абзацы или короткая новость из тела статьи?

Тема в разделе "Решение различных задач по парсингу", создана пользователем Petruha, 6 окт 2018.

  1. Petruha

    Petruha New Member Пользователи

    Регистрация:
    26 янв 2015
    Сообщения:
    9
    Здравствуйте, есть схожие темы, но решения нет, подскажите возможно ли сделать следущее:
    имеем уже готовые спарсеные статьи в .txt или .csv файлах (все статьи в одном файле построчно). Нужно разбить каждую строчку на куски 2-5 предложений или 300 - 1000 символов и сохранить только этот кусочек. Как мы делаем короткую новость или полную в начале статьи. Вероятно это можно сделать с Макрос случайного вывода текста ({..|..|..|..}) или
    <SHAKESTRINGS><CD_GRAN_1!>|<CD_GRAN_2!>|<CD_GRAN_3!></SHAKESTRINGS> непонятно как изначально порезать статью на кусочки? Метод или регулярка также не должны быть привязаны к языку RU, EN, DE...
     
  2. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    3.297
    Petruha нравится это.
  3. Petruha

    Petruha New Member Пользователи

    Регистрация:
    26 янв 2015
    Сообщения:
    9
    Привет, посмотрел еще раз, да функция похожа IMORE или SHORT, но они обрежут только начало, а как выдернуть с середины или с конца несколько предложений? При том чтоб был рандом?
     
  4. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.463
    В суть не вникал, может и не правильно. но для того чтоб порезать на куски либо делайте 2 проэкта, либо через php скрипт. Сделать через 2 проэкта проще думаю.
     
    Petruha нравится это.
  5. Petruha

    Petruha New Member Пользователи

    Регистрация:
    26 янв 2015
    Сообщения:
    9
    Да проекта в любом случае уже будет два, т.к. часть статей уже спарсены и находятся в файлах, сложность в том чтобы порезать текст на кусочки и сохранить этот кусочек рандомно... решение так и не нашлось, если только не внешним скриптом делать, но это смахивает на костыли, если же есть возможность програмно разрезать буду рад услышать эти варианты...
     
  6. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    3.297
    Решение уже описывал ранее на форуме с примерами. Для одной границы регулярками расставляются метки, потом повт.границей распарсивать содержимое границы.
     
    Petruha и Kreol нравится это.

Поделиться этой страницей