Несколько ПГ внутри ПГ в рамках <GETMORECONTENT>

Тема в разделе "Решение различных задач по парсингу", создана пользователем subliman, 6 май 2017.

  1. subliman

    subliman New Member Пользователи

    Регистрация:
    6 май 2017
    Сообщения:
    13
    Город:
    ст-ца Калининская
    Здравствуйте, Уважаемые! Не могу решить задачку, очень надеюсь на вашу помощь )

    Требуется спарсить информацию со страницы товара Яндекс.Маркета, плюс страницу с подробными характеристиками и сохранить все это в один файл (получается отдельный файл для каждой модели, содержащий инфу с двух страниц).

    Проблема со второй страницей (страница характеристик).

    У меня получилось следующее. Через границу парсинга определил ссылку на страницу с подробными характеристиками, далее через <GETMORECONTENT> выдрал с этой страницы кусок кода, содержащий все характеристики. А вот как мне дальше распарсить эти характеристики, я догадаться не могу. По факту нужно выделить заголовки, названия характеристик и их значения, итого связка их 3-х повторяющихся циклов, вложенных в 1 повторяющийся цикл, и вся эта радость в рамках макроса <GETMORECONTENT>.

    Для примера:

    Страница товара:
    Ссылки недоступны для гостей

    Страница подробных характеристик:
    Ссылки недоступны для гостей

    Как видим, на странице подробных характеристик присутствуют заголовки:
    1. Общие характеристики

    2. Экран

    3. Мультимедийные возможности

    4. Связь

    5. Память и процессор

    ...

    После каждого заголовка следует список характеристик (на примере заголовка «Общие характеристики»):

    1. Общие характеристики
    1.1 Тип

    1.2 Версия ОС

    1.3 Тип корпуса

    1.4 Материал корпуса

    ...

    И напротив каждой характеристики ее значение (на примере заголовка «Общие характеристики»):

    1. Общие характеристики
    1.1 Тип
    1.1.1 смартфон
    1.2 Версия ОС
    1.2.1 iOS 10
    1.3 Тип корпуса
    1.3.1 классический
    1.4 Материал корпуса
    1.4.1 алюминий и стекло
    ...

    Догадываюсь, что должна быть конструкция из нескольких ПГ внутри ПГ (один цикл в который вложено еще 3 цикла). Как это осуществить на практике, да еще с учетом того, что контент подгружается через <GETMORECONTENT>?

    Спасибо за отклик! )
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Нужно производить парсинг со страниц подробных характеристик товаров.
     
  3. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Ссылки недоступны для гостей обратить внимание на оператор [GROUPNAME]
     
  4. subliman

    subliman New Member Пользователи

    Регистрация:
    6 май 2017
    Сообщения:
    13
    Город:
    ст-ца Калининская
    Все верно, но как быть, если обе страницы равнозначные? К примеру, на основной странице мне нужно получить список кратких характеристик, список похожих моделей и список сопутствующих товаров. В целом на обеих страницах задачки схожие )

    За [GROUPNAME] спасибо, буду разбираться.
     
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Кто вам мешает парсить со страниц подробных характеристик и подгружать информацию с основных страниц товаров - непонятно...
     

Поделиться этой страницей