Фильтрация границ парсинга

Тема в разделе "Решение проблем с использованием программы", создана пользователем aluminoter, 18 май 2014.

  1. aluminoter

    aluminoter New Member Пользователи

    Регистрация:
    1 апр 2013
    Сообщения:
    94
    Подскажите пожалуйста алгоритм для достижения цели.

    Задача:
    Есть одна граница парсинга, необходимо:

    1. С границы парсинга убрать все кроме текста
    2. С границы парсинга убрать все кроме самой ссылки на фото то есть Ссылки недоступны для гостей
    3. С границы убрать все кроме определенного текста, например: video/234234list

    Фото на странице может быть много, так же и video тоже бывает много. Просто я уже задолбался думать, одно выходит а другое нет и наоборот.

    Кто чем может, помогите разобраться!!!
     
  2. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.429
    Адрес:
    Latvia
    1. отметить htmtotxt в дополнительных настройках границ
    2. границу использовать как область кода и потом цепляясь за href=" и " распарсить циклическим макросом GETMORECYCLECONTENT
    3. аналогично пункту 2.
     
  3. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    2. Примените к границе парсинга поиск-замену: http://{get}.jpg|http://{get}.jpg
    3. Аналогично п. 2
     
  4. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.429
    Адрес:
    Latvia
    Наврятли через {get} возьмет все, срабатывает то один раз:mmm:
     
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Повторяющиеся границы парсинга или динамические с регулярками Ссылки недоступны для гостей
     
  6. aluminoter

    aluminoter New Member Пользователи

    Регистрация:
    1 апр 2013
    Сообщения:
    94
    Это немного не коректное выражение, так как он возьмет весь мусор начиная с http:// и заканчивая .jpg.
    Просто бывает что идет мусор который тоже начинается с http а вот корректный код который надо забрать может быть в конце и потому он с этим выражением берет весь мусор.
     
  7. aluminoter

    aluminoter New Member Пользователи

    Регистрация:
    1 апр 2013
    Сообщения:
    94
    Вот вроде бы вот так сработало, но только для одной фото:
    [REPLACE(<img src="http://{get}.jpg|http://{get}.jpg)]<CD_GRAN_1!>[/REPLACE]

    Сейчас буду разбераться, что с себя представляет динамические границы.
    Всем спасибо, кто откликнулся на мою просьбу.
     
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Регулярками точно без мусора можно Ссылки недоступны для гостей
     

Поделиться этой страницей