Помогите с парсингом каталога товара

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем xab, 20 мар 2013.

  1. xab

    xab New Member Пользователи

    Регистрация:
    14 апр 2010
    Сообщения:
    8
    Всем привет!
    Как можно спарсить вот такой сайт
    Ссылки недоступны для гостей - страница со ссылками на модели, мне нужно в итоге получить csv файл вида
    имя модели; характеристики модели; картинка; Имя моделей из комплектации.

    Теперь подробнее, на этой странице есть ссылки на модели и комплектации моделей, ссылки находятся в блоках
    <div class="name">
    <a href="урл" class="name_popup">Модель</a> - Сама модель
    <p><noindex><nobr><a rel="nofollow" href="./acer_options_7303.html">комплектаций: 2 </a></nobr></noindex></p>
    </div>

    Вот характеристики находятся на одной старнице с Моделью, а в комлектации похожие модели (другая страница), и как это связать в один блок ума не приложу.

    Направьте на путь истины.
     
  2. nikolas1612

    nikolas1612 Member Пользователи

    Регистрация:
    27 ноя 2011
    Сообщения:
    439
    имя, картинка и характеристики модели на странице вида -
    Ссылки недоступны для гостейcatalog_acer_2365.html
    комплектации - на странице вида -
    Ссылки недоступны для гостейacer_options_2365.html

    страницы первого вида парсите обычным порядком
    в ячейке, где нужны комплектации, вводите макрос getmorecyclecontent, использовав в качестве ресурса замену одной ссылки на другую
    catalog_acer_|acer_options_

    примерно так --
    PHP:
    [GETMORECYCLECONTENT][URL][FIRST_REPLACE(catalog_acer_|acer_options_)]<CD_DOCURL!>[/FIRST_REPLACE][/URL][START]<b><a href="catalog_acer_{skip}.html">[/START][END]</a>[/END][TOSTART][/TOSTART][TOEND][/TOEND][PARAMS][/PARAMS][SEP]; [/SEP][/GETMORECYCLECONTENT]
    для страницы Ссылки недоступны для гостей он выдаст такой результат -
    Код:
    Acer Aspire 2930-583G25Mi, Acer Aspire 2930-583G25Mi, Acer Aspire 2930-583G25Mn, Acer Aspire 2930-733G25Mn, Acer Aspire 2930-844G32Mn
     
    Последнее редактирование: 20 мар 2013

Поделиться этой страницей