Граница парсинга, последний найденный класс, динамический id.

Тема в разделе "Границы парсинга", создана пользователем vladimir4000, 25 авг 2017.

  1. vladimir4000

    vladimir4000 New Member Пользователи

    Регистрация:
    25 авг 2017
    Сообщения:
    4
    Доброго дня, подскажите пожалуйста новичку, где можно посмотреть подробнее как выбрать границу парсинга. Нужно выбрать Каталки для детей в <span class="Caption"><a href="Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! ">Каталки для детей</a></span>, но количество классов Caption
    может быть разное, так что нужно выбрать всегда только последний, да и к тому же в <a href="Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! "> id всегда разный. Подскажите пожалуйста как быть?
    <div class="Way">
    <a href="Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! ">Главная</a> &gt;&gt;
    <span id="ContentPlaceHolder1_PathProd1_ListPath"><span class="Caption">
    <a href="Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! ">Игрушки</a>
    </span><span>
    &gt;&gt;
    </span><span class="Caption">
    <a href="Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! ">Полесье</a>
    </span><span>
    &gt;&gt;
    </span><span class="Caption">
    <a href="Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! ">Цена поставщика</a>
    </span><span>
    &gt;&gt;
    </span><span class="Caption">
    <a href="Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! ">Каталки для детей</a>
    </span></span></div>
     
  2. Mind

    Mind Active Member Пользователи

    Регистрация:
    8 ноя 2016
    Сообщения:
    53
    В поиск-замене границы вставьте
    &nbsp;|
    re:[\s\t]+|
    > |>
    <|<
    >|>
    </a></span>|
    &gt;&gt;|^^^^
    <{skip}>|
    ^^^^{skip}|
    {skip}|{prevskip}
     
    vladimir4000 и Root нравится это.
  3. vladimir4000

    vladimir4000 New Member Пользователи

    Регистрация:
    25 авг 2017
    Сообщения:
    4
    Огромное спасибо, все работает как нужно. Только вот совсем не разбираюсь в регулярных выражениях. Подскажите пожалуйста, а как в этом примере выбрать не последний , а предпоследний элемент в классе Caption? Спасибо.
     
  4. Mind

    Mind Active Member Пользователи

    Регистрация:
    8 ноя 2016
    Сообщения:
    53
    Добавьте предпоследней еще строчку
    ^^^^{skip}|
     
    vladimir4000 и Root нравится это.
  5. vladimir4000

    vladimir4000 New Member Пользователи

    Регистрация:
    25 авг 2017
    Сообщения:
    4
    Доброго дня, хотелось бы попросить еще немного помощи. К сожалению, парсинг по названию категорий мне не подходит, т.к. повторяются названия. Хотелось бы попросить, как можно с помощью регулярного выражения получать не название последнего каталога в классе Caption, а номер последнего id, к примеру Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! из последнего <a href="Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! ">Каталки для детей</a>. Спасибо.
     
  6. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    8.112
    Адрес:
    sbfroot@gmail.com
    Город:
    Краснодар
    Здравствуйте.

    Код:
    <a href="Prod.aspx?id={skip}"|
    {get}|{prevskip}
    2017-09-15_16-37-13.png
     
    kagorec и vladimir4000 нравится это.
  7. vladimir4000

    vladimir4000 New Member Пользователи

    Регистрация:
    25 авг 2017
    Сообщения:
    4
    Все оказалось проще, чем я думал, спасибо.
     
    Root нравится это.

Поделиться этой страницей