Цикличный парсинг

Тема в разделе "Решение различных задач по парсингу", создана пользователем mrTall, 15 ноя 2013.

  1. mrTall

    mrTall New Member Пользователи

    Регистрация:
    15 ноя 2013
    Сообщения:
    2
    Задача парсить беларуский извесный каталог
    Характеристики нужно типизировано получить
    Пытался выдерать Характеристика - значение, но у них очень уж нереально это сделать
    Хорошим вариантом оказалось найти tr из таблицы характеристик, и в нем уже искать параметры
    Можно ли запускать вначале поиск блока, затем поиск внутри блока?
    Как то что бы то что налось вот тут
    PHP:
    <GETMORECONTENT><URL="[SELF]"><START="<tr class="pline2">"><STARTCOUNT="0"><END="</tr>"><ENDCOUNT="0"><PARAMS=""></GETMORECONTENT>
    Помещалось в переменную, и в нем искалось уже
    PHP:
    <GETMORECONTENT><URL="[SELF]"><START="<tr class="pline2">"><STARTCOUNT="0"><END="</tr>"><ENDCOUNT="0"><PARAMS=""></GETMORECONTENT>
    <
    GETMORECONTENT><URL="[SELF]"><START="<td>"><STARTCOUNT="0"><END="</td>"><ENDCOUNT="0"><PARAMS=""></GETMORECONTENT>
    Изначально блок такой:
    HTML:
    			<tr class="pline2">
                                  <td class="pdinfohead">
                                      <div class="par-name">
                                          <a class="par-link" href="#" onclick="togle_par_about('par_about_hdminb'); return false;">
                                              HDMI</a>
                                              
                                              <a class="par-link  par-q-link-img" href="#" onclick="togle_par_about('par_about_hdminb'); return false;">
                                                  <img class="par-q-link" style="visibility: hidden;" src="http://catalog.onliner.by/pic/ico_que.gif" border="0" alt="Что такое &laquo;HDMI&raquo;" />
                                              </a>
                                              
                                          </a>
                                      </div>
                                      
                                      <div id="par_about_hdminb" class="par-about-q" style="display: none;">
                                          <div class="par-about-popup">
                                              <div class="par-about-img">
                                                  <img src="http://catalog.onliner.by/pic/par-about-bg.png" />
                                              </div>
                                              <div class="ie-shadow">
                                                  <div class="par-about-inner">
                                                      <div class="par-about-head">HDMI</div>
                                                          High-Definition Multimedia Interface (HDMI) - мультимедийный интерфейс высокого разрешения, позволяет передавать цифровые видеоданные высокого разрешения и многоканальные цифровые аудио-сигналы.
                                                  </div>
                                              </div>
                                              <div class="par-about-bg">
                                                  <div class="par-about-inner">
                                                      <div class="par-about-head">HDMI</div>
                                                          High-Definition Multimedia Interface (HDMI) - мультимедийный интерфейс высокого разрешения, позволяет передавать цифровые видеоданные высокого разрешения и многоканальные цифровые аудио-сигналы.
                                                  </div>
                                              </div>
                                          </div>
                                      </div>
                                      
                                  </td>
                                  <td>
                                      <img width="12" height="12" border="0" alt="Нет" title="Нет" src="http://catalog.onliner.by/pic/ico_no.gif"> &nbsp;
                                  </td>
                              </tr>
    Пример страницы
    Код:
    http//catalog.onliner.by/apple/ipadair16gb4gsg/
    Возможно я выбрал заведомо неправильную стратегию?
     
  2. nikolas1612

    nikolas1612 Member Пользователи

    Регистрация:
    27 ноя 2011
    Сообщения:
    439
    может, я не вник в суть вопроса, но с первого взгляда - вы стартуете, не там где надо. вам нужно спарсить эту страницу? тогда зачем getmorecontent.
    он нужен для ситуаций, когда вы парсите страницу и одновременно хотите вставить в шаблон содержимое ДРУГОЙ страницы. иначе говоря, когда в один ваш файл попадают блоки контента с разных адресов.

    посмотрел код. все характеристики на месте, скриптов нет.
    обычный магазин, ничего особенного.

    ознакомьтесь с методикой парсинга "обычные границы внутри повторяющихся", и расшлепаете этот ресурс на раз-два.

    Ссылки недоступны для гостей
     
    Последнее редактирование: 15 ноя 2013
  3. mrTall

    mrTall New Member Пользователи

    Регистрация:
    15 ноя 2013
    Сообщения:
    2
    Да, все получилось, просто по инструкции. Спасибо большое
     

Поделиться этой страницей