регулярные выражения в Content Downloader

Тема в разделе "Функции и интерфейс программы", создана пользователем nikolas1612, 11 авг 2012.

  1. nikolas1612

    nikolas1612 Member Пользователи

    Регистрация:
    27 ноя 2011
    Сообщения:
    439
    та она сырая-пресырая еще. я уже поймал первый глюк - оказывается, встречаются новости, авторы которых умудряются начать и закончить одной и той же фразой. :) сами понимаете, что при этом делается. регулярка умножает их на ноль. для меня-то подойдет - полезный эффект намного больше редких проколов.. но надо будет подшлифовать, или вообще полностью поменять логику отсева.
     
  2. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Тут всё зависит что за тексты, куда будут ставиться, в каком объёме статья. Сейчас в инете бардак полнейший (особенной по Яндексу), работать на качество - значит работать себе в убыток. И, с другой стороны, если не думать о качестве, значит обрезать себе будущее. Приходится вилять, приспосабливаться.
     
  3. nikolas1612

    nikolas1612 Member Пользователи

    Регистрация:
    27 ноя 2011
    Сообщения:
    439
    вопрос к знатокам регулярных выражений:
    как при помощи регулярок выделить в тексте вхождение с определенным порядковым номером? к примеру, мне хотелось бы сделать нечто с тегом <трям-трям>, идущим в тексте 4-м по счету?
    пока что я могу сделать только вариант "с КАЖДЫМ четвертым (четвертым, восьмым и т.д.". как коротко и красиво сделать привязку именно к №4?

    P.S. уважаемый модератор переименуйте пжлст эту тему в "регулярные выражения в СД" или что-то в этом роде. название темы мы проехали еще в первых 4-х постах. ;)
     
  4. pavel24

    pavel24 New Member Пользователи

    Регистрация:
    25 ноя 2013
    Сообщения:
    9
    Добрый день,
    в тексте несколько раз в разный местах в разном количестве повторяются теги
    ....
    <ul>
    ...
    </ul>

    Как обрезать текст от последнего </ul> и до конца текста?
     
  5. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.429
    Адрес:
    Latvia
    Регуляркой тут излишне удалять, стандарт функционалом проще (повторить столько строк сколько раз встречается)
    Код:
    </ul>{skip}|</ul>
    Ну а если регулярным выражением то
    Код:
    re:</ul>(.*)$|</ul>
    Результат показан на скриншоте

    [​IMG]
     
    Последнее редактирование: 24 апр 2014
  6. pavel24

    pavel24 New Member Пользователи

    Регистрация:
    25 ноя 2013
    Сообщения:
    9
    Попробовал на следующем примере:
    <ul>
    Строка 1
    </ul>
    <ul>
    Строка 2
    </ul>
    Строка 3

    Получил:
    <ul>
    Строка 1
    </ul>

    А хотелось, чтобы в результате удалилась только "Строка 3"
     
  7. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.429
    Адрес:
    Latvia
    Тогда так, чтоб удаляло все начало до </ul>, но оставило что после него
    ------------

    Удалить только "Строка 3"

    Регуляркой отметим обьект который находися от конца текста и до первого встречного тега </ul>
    Потом скипом удалим метку и все что после нее -----
     
    Последнее редактирование: 23 апр 2014
  8. pavel24

    pavel24 New Member Пользователи

    Регистрация:
    25 ноя 2013
    Сообщения:
    9
    Все нет так :)

    Мне нужно удалить "Строка 3", т.е. оставить:
    <ul>
    Строка 1
    </ul>
    <ul>
    Строка 2
    </ul>
     
  9. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Да уж =)
    Вам же писали...
     
  10. pavel24

    pavel24 New Member Пользователи

    Регистрация:
    25 ноя 2013
    Сообщения:
    9
    Данная конструкция удаляет от 1го <UL> и до конца.
    К сожалению, не один из вариантов только "Строка 3" не удаляет.
    Все варианты опробовал в редакторе поиска-замены
     
  11. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Данная конструкция удаляет ОТ КОНЦА И ДО ПЕРВОГО </ul> ОТ КОНЦА - то, что вы и просите. Я ОТВЕЧАЮ ЗА СВОИ СЛОВА!
    Если у вас не так, обновите программу до самой свежей версии...
     
  12. Freesty1er

    Freesty1er New Member Пользователи

    Регистрация:
    30 дек 2013
    Сообщения:
    95
    Ну если известно чем заканчивается "Строка 2", то тогда можно так наверное:
    Код:
    Строка 2{br}</ul>{skip}|Строка 2{br}</ul>
    Или что-то в этом роде :think:
     
    Последнее редактирование: 24 апр 2014
  13. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Хей-хей, слушайте меня - я разработчик программы, помните? =)
    Сколько можно указывать на решение этой простой задачи, я не знаю. Дело ваше, конечно, использовать его или нет...

    Решение ->
    <- использовать его

    Если у вас это не работает - обновитесь до самой свежей версии. Если вы обновились и у вас это не работает - выложите сюда файл проекта или вышлите файл проекта (где это у вас не работает) мне на почту.
     
  14. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Кажется, скоро эта тема доведет данный вопрос до красных больших букв, как было это с настройкой повторяющихся границ Ссылки недоступны для гостей =)))
     
  15. pavel24

    pavel24 New Member Пользователи

    Регистрация:
    25 ноя 2013
    Сообщения:
    9
    Теперь ОК, Спасибо!
     
  16. q457

    q457 New Member Пользователи

    Регистрация:
    25 июл 2015
    Сообщения:
    35
    Помогите решить задачу
    Есть вот такой результат парсинга
    https:\u002F\u002Fwww.mayami.ru\u002Fgwofgdge-onduline-pvcv-zxykle-100-szt-szadse-id-fd86.htm
    поле u002F повторяется (в каждом результате оно разное), как его убрать регуляркой чтоб в результате получить
    gwofgdge-onduline-pvcv-zxykle-100-szt-szadse-id-fd86.htm ?
     
  17. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Код:
    \u002F{get}|{get}
     
    Последнее редактирование: 19 авг 2019
    q457 нравится это.
  18. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.429
    Адрес:
    Latvia
    Код:
    re:\\u002F$|
    re:^.*\\u002F|
    
    \u002F - это закодированный слэш /
    Ссылки недоступны для гостей
     
    q457 нравится это.

Поделиться этой страницей