Фильтр для автоматического парсинга текста!

Тема в разделе "Фильтры ссылок", создана пользователем fartof, 23 апр 2013.

  1. fartof

    fartof New Member Пользователи

    Регистрация:
    29 сен 2012
    Сообщения:
    8
    Добрый день. Не подскажете как в макросе <CD_AUTO!> без применения php скрипта сделать такой фильтр , если текст в столбик и строки короче n-символов, то документ не загружается.
    Чтобы было понятнее ниже примеры текстов которые нужно фильтровать.

    Золотой ассортимент
    Золотой ассортимент санаториев
    Золотой ассортимент пляжного отдыха
    Золотой ассортимент экскурсионных туров
    Золотой ассортимент зарубежных курортов
    Пляжный отдых
    Пляжный отдых в России
    Пляжный отдых в Абхазии
    Пляжный отдых в Украине
    Отдых около водоемов
    -----------------------------
    Отдых летом 2012 в России
    Экскурсионные туры
    Экскурсионные туры по России
    Экскурсионные туры по Украине
    Экскурсионные туры в Белоруссию
    Экскурсии по Абхазии
    Автобусные туры
    Экскурсии во Владимир
    Экскурсии на Новый год и Рождество
    Новый год 2013 в Прибалтике: Латвия, Литва и Эстония
    Новый год в Одессе
    -----------------
    Выберите регион:
    Архангельская обл.
    Алтай Респ.
    Алтайский край
    Амурская обл.
    Адыгея Респ.
    Астраханская обл.
    -----------------------------
    Т.е. текст идет столбиком. Как сделать фильтр в котором можно было бы указать, если текст в столбик и строки короче n-символов , то документ не загружается. (ключевой момент текст в столбик), т.к. при автомат. парсинге основная дрянь лезет как раз текстом в столбик.
    В "массовой обработке файлов" есть функция "чистка документов 2" удаление строк по их длине, но она не подходит, т.к. удаляет и нужный текст в файлах длина которых короче n-символов.
     
  2. alamina.moon

    alamina.moon Модератор Команда форума Модератор

    Регистрация:
    14 янв 2013
    Сообщения:
    214
    Ссылки недоступны для гостей

    регулярка очистит весь код если встретится подобная конструкция например две строки идеут в столбик и обе короче 50 символов
    А потом фильтрануть по минимальной длине документа
     
  3. fartof

    fartof New Member Пользователи

    Регистрация:
    29 сен 2012
    Сообщения:
    8
    Спасибо! Попробую применить, а я уже и не ждал ответа.
     
  4. alamina.moon

    alamina.moon Модератор Команда форума Модератор

    Регистрация:
    14 янв 2013
    Сообщения:
    214
    Извините что через столько времени пишу, но просто стало интересно что такая регулярка может не дорезать?
     
  5. nikolas1612

    nikolas1612 Member Пользователи

    Регистрация:
    27 ноя 2011
    Сообщения:
    439
    хм.. а хрен его знает. пересмотрев эту тему, тогдашний ход своих мыслей восстановить уже не смог. да и суть предложения своего уже не помню. наверно, просто ошибся.
     

Поделиться этой страницей