Как спарсить ЧПУ (саму ссылку, адрес страницы)

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем Kores, 20 янв 2014.

  1. Kores

    Kores New Member Пользователи

    Регистрация:
    16 май 2012
    Сообщения:
    4
    Здравствуйте! Пытаюсь спарсить один сайт. Разобрался со всем, но не могу понять, как спарсить адрес страницы.

    Т.е. предположим у нас есть сайт site.ru

    У него есть внутренние страницы:
    • site.ru/001/
    • site.ru/001/002/
    • site.ru/001/002/003/

    Как мне спарсить этот самый адрес? 001, 002, 003.

    Не кидайте тапками, если что. Искал по форуму, но подходящего не нашел. Спасибо!

    __

    Для уточнения - мне нужно сохранить адреса всех страниц.

    Те. если я парсю страницу site.ru/001/ - у меня на сайте это будет выглядеть, как site-pars.ru/001/
     
    Последнее редактирование: 20 янв 2014
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Сканером сайтов Ссылки недоступны для гостей
     
  3. Kores

    Kores New Member Пользователи

    Регистрация:
    16 май 2012
    Сообщения:
    4
    Сканером сайтов я все ссылки собрал (их и буду парсить).
    Как мне вывести на странице адрес ссылки, с которой я паршу / парсю (не знаю, как правильно :wasntme:). Как мне вставить её в шаблон вывода?
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Макрос шаблона вывода <CD_DOCURL!>
     
    schtirlitz нравится это.
  5. Kores

    Kores New Member Пользователи

    Регистрация:
    16 май 2012
    Сообщения:
    4
    Разобрался, спасибо. Теперь появился новый вопрос.

    <CD_DOCURL!> вывел мне ссылку вида site.ru/001/
    А как мне из этой части получить только 001.
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Ссылки недоступны для гостей
     
  7. Kores

    Kores New Member Пользователи

    Регистрация:
    16 май 2012
    Сообщения:
    4
    находил это, но это ведь применимо для границ парсинга.

    а я просто вывожу <CD_DOCURL!> в шаблоне вывода.

    Что в итоге получается мне там нужно вывести?
     
  8. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.442
    Адрес:
    Latvia
    В справке есть, вот готовый вариант, осталось скопировать и вставить:dance:
    PHP:
    [REPLACE(http{skip}site.ru/|)]<CD_DOCURL!>[/REPLACE]
     

Поделиться этой страницей