Как правильнее поступить? Несколько вопросов...

Тема в разделе "Обработка данных при парсинге во вкладке "Контент"", создана пользователем Dumka, 22 фев 2017.

  1. Dumka

    Dumka Well-Known Member Пользователи

    Регистрация:
    8 фев 2012
    Сообщения:
    121
    Всем привет!
    Вопросы такие...
    Как бы вы поступили в случае:

    1. При парсинге статей бывают статьи очень большого размера (10-20-30к символов и более).
    Можно как то их разбивать на куски по заданному количеству символов, но при этом чтоб не рвало предложения-слова-верстку и раскидывать по соседним столбцам в csv?
    Мне это требуется т.к. в дальнейшем контент еще обрабатывается, а там где он обрабатывается есть ограничение на количество символов... который увы обойти не возможно

    2. Как из текста сделать "содержание"в отдельном столбце, и при этом проставить якоря в самом столбце с текстом? Заменами?
    Грубо говоря удаляем весь текст кроме тегов H1...6, B и STRONG
    Теги "превращаем" в LI/OL с вложением списков в порядке "убывания" чтоб получилось типа древовидной структуры.
    и при этом каждый LI/OL это ссылка на нужный якорь в тексте

    3. Как после закрытия определенных тегов, к примеру P или DIV вставить что то типа <!—more—>
    но с увеличивающимся "счетчиком" типа так: <!—moreN—> где N увеличивается на единицу после каждой вставки в пределах одного текста.
    Правильно ли я думаю что как то так:
    re:<\/(p{sep}div)>|</${1}><!—more[COUNT]—>
    Или есть другие варианты?

    Интересны ваши решения...
     
  2. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    После парсинга обработал бы в Zebroid , сэкономив время и нервы.
    Предпологаю задумали красивую копипаст статью с навигацией по абзацам (пример как на вики статьях).
    Нереально вроде такое на автомате сделать.
     
    Последнее редактирование: 22 фев 2017
    Dumka нравится это.
  3. Dumka

    Dumka Well-Known Member Пользователи

    Регистрация:
    8 фев 2012
    Сообщения:
    121
    Там трабл в том что зеброид не импортирует из csv ...
    Я же очень привык к этому формату и работе с ним в екселе...
    Да, что то типа такого нужно реализовать
    Придумаю что нибудь... не впервой :)
     
  4. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    CSV в Zebroid импортируется отлично. Поля сопоставить можно в своем шаблоне на свое усмотрение чтоб данные распределились по своим местам. Кодировка UTF-8 и разделитель ;

    [​IMG]
     
    Последнее редактирование: 22 фев 2017
    Root и Dumka нравится это.
  5. Dumka

    Dumka Well-Known Member Пользователи

    Регистрация:
    8 фев 2012
    Сообщения:
    121
    Да, нашел в демке
    А пока смотрел вспомнил что у меня где то лицуха тексткита валяется
    Там по сути все тоже самое же есть...
    Только вот с "содержанием" как поступить... пока не нашел такого в зеброиде
    (Имеется ввиду содержание статьи а не сайта)
     
    Root нравится это.
  6. Dumka

    Dumka Well-Known Member Пользователи

    Регистрация:
    8 фев 2012
    Сообщения:
    121
    Очередной вопрос
    Имеем текст со внутренней перелинковкой
    Урлы при парсинге я изменяю - будет чпу
    Возможно ли как то сменить и урлы ссылок на эти страницы в других текстах сразу при парсинге? :)
    Пока решаю данную задачу в екселе после парсинга, но может есть решение и при парсинге это сделать?
     

Поделиться этой страницей