как убрать из итогового CSV все ссылки?

Тема в разделе "Решение различных задач по парсингу", создана пользователем Богдан, 14 окт 2015.

  1. Богдан

    Богдан New Member Пользователи

    Регистрация:
    11 сен 2015
    Сообщения:
    19
    Адрес:
    Красногорск
    HTMTOTXT работает, как я понял так: убирает все теги, кроме прописанных, а если мне надо все оставить, кроме тегов ссылок, причем так, чтобы то, что между <a> и </a> осталось простым текстом или картинкой, тогда как быть? ну или другие теги?
     
  2. Богдан

    Богдан New Member Пользователи

    Регистрация:
    11 сен 2015
    Сообщения:
    19
    Адрес:
    Красногорск
    Вопрос провисел два дня - никто не ответил :(
    предполагаю варианты:
    1. никто не зает ответа
    2. ответа просто не существует
    3. это военная тайна!
    Ваши предположения?
     
  3. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Я долго пытался понять, что вы хотите, но так и не вышло.

    Соответственно, не смог подобрать вам решение.

    Если можно, давайте вы приведете конкретный пример: Вот, допустим, есть код и из него надо получить вот такой код.

    Тогда я попытаюсь вам помочь.

    С уважением к вам, Сергей.
     
  4. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.432
    Адрес:
    Latvia
    Как вариант [DELTAGS:a]<CD_GRAN_11!>[/DELTAGS]
    Не тронет теги, удалит только тег "a"
     
    nct нравится это.
  5. Богдан

    Богдан New Member Пользователи

    Регистрация:
    11 сен 2015
    Сообщения:
    19
    Адрес:
    Красногорск
    Я делаю парсинг товаров в CSV файл для загрузки их через кампонент JOOMLA CSVI pro. В ячейку описания товара с помощью нескольких границ в итоге собирается примерно такой код, как вставленный ниже, НО!
    Сайт-донор делался и наполнялся в течении нескольких лет и бог знает сколькими вебмастерами и админами, поэтому код в разных товарах мягко говоря несколько различный, в частности выделенная красным ссылка (красным она не выделилась, но тег я оставил как метку, это в последнем <p>) может попадаться в разных местах описания, в разных границах парсинга.
    Отсюда вопрос: есть ли какой-нибудь макрос, который бы применялся после формирования CSV файла и проверял бы весь спарсенный товар, а в идеале как вариант весь итоговый файл на наличие затесавшихся туда тегов <a......>...</a> и убирал бы их, или, опять же в идеале, заменял бы из на нужные ссылки?
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    Вот примерно так...
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Ответ предложили выше:
     
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Либо поиск-заменой:
    Ссылки недоступны для гостей

    С уважением к вам, Сергей.
     
  8. Богдан

    Богдан New Member Пользователи

    Регистрация:
    11 сен 2015
    Сообщения:
    19
    Адрес:
    Красногорск
    Собственно именно так я и сделал, когда не дождался ответа... Но этот вариант недостаточен для моих целей, поскольку ссылки, которые надо удалить встречаются в разных границах парсинга даже в пределах одной категории, а попытка распространить этот поиск-замену на несколько границ не получается, так как в ряде их уже есть свои настройки поиска-замены и они вступают в конфликт между собой. Настраивать же одинаковые поиск-замены для десятка границ парсинга представляется мне чем-то вроде чистки зубов через задний проход - теоретически возможно, но не слишком привлекательно... Поэтому я и предположил, что в процессе многих лет Вы уже встречались с этой проблемой, и есть какой-нибудь макрос, решающий ее более изящно :)
    Как я понимаю:
    это и есть оно самое, только еще один вопрос:
    Можно ла применить этот макрос не к одной границе парсинга, а ко всем нужным границам сразу, примерно так:
    HTML:
    ...[CSVCS][DELTAGS:a]<CD_GRAN_6!>[HTMTOTXT:p]<CD_GRAN_7!>[/HTMTOTXT]<CD_GRAN_8!>]<CD_GRAN_9!>[REPLACE(<p>{skip}</p>|)]<CD_GRAN_10!>[/REPLACE]<CD_GRAN_11!><CD_GRAN_12!>[REPLACE(<div class="buttocent2">{skip}</div>|)]<CD_GRAN_13!>[/REPLACE][/DELTAGS][CSVCS]...
    ?
     
  9. Богдан

    Богдан New Member Пользователи

    Регистрация:
    11 сен 2015
    Сообщения:
    19
    Адрес:
    Красногорск
    Очень извиняюсь, этот ответ "попал промеж глаз"!
    Спасибо, сегодня попробую, но вопрос в ответе выше хотелось бы прояснить заранее...
     
  10. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Ответ: можно.

    С уважением к вам, Сергей.
     
  11. Богдан

    Богдан New Member Пользователи

    Регистрация:
    11 сен 2015
    Сообщения:
    19
    Адрес:
    Красногорск
    Здравствуйте.
    Спасибо большое.
     
  12. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Пожалуйста. Обращайтесь...
     

Поделиться этой страницей