Не могу спарсить характеристику

Тема в разделе "Решение различных задач по парсингу", создана пользователем Quinke, 10 фев 2015.

  1. Quinke

    Quinke New Member Пользователи

    Регистрация:
    13 дек 2014
    Сообщения:
    5
    Нужно спарсить название материала (например: 95% rayon, 5% spandex), пробовал выделять начало границы и конец границы парсинга как <li><li>, в некоторых случаях работает, а иногда парсится совершенно другой участок кода или размер, страна изготовитель и т.д. Товаров около 1000 штук.

    HTML:
    <div class="simpleTabsContent">
        <span class="productFontColor" id="product_overview" style="margin: 10px 0px 10px 10px; text-transform: none; display: block;">
                                                    <p>Busy mornings and stacked social calls are no match for this throw-on-and-go t-shirt dress!</p><ul><li>Lightweight<li>95% rayon, 5% spandex<li>30.5" full length, 42" chest, 40" waist, 8" sleeve length<li>Measured from Small<li>Hand wash cold<li>USA</li></ul><br>
                                                    Model Info:&nbsp;Model Information is not available.<br>
                                                    <br>
                                                    Product Code :&nbsp;2000080578
                                                    
                                                </span>
                                            </div>
    
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Приведите, пожалуйста, пару примеров URL-адресов таких WEB-страниц. По показанному вами участку кода сложно показать вам точное решение (есть много нюансов).

    Спасибо!
     
  3. Quinke

    Quinke New Member Пользователи

    Регистрация:
    13 дек 2014
    Сообщения:
    5
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    По первой ссылке парсится как надо, по двум другим нет.
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Тут ничего я не могу сейчас сделать, только брать весь список характеристик целиком в одну ячейку CSV, так как на одной странице он такой:
    А на другой такой:
    И не к чему привязаться.
     
  5. Quinke

    Quinke New Member Пользователи

    Регистрация:
    13 дек 2014
    Сообщения:
    5
    Решил использовать DYNAMICVALUES, но получается спарсить только первые два значения. Код такой:

    [DYNAMICVALUES][REPLACE(<li>|[VALUE]:{break}</i>|[NEXTPAIR]{break}<{skip}>|)]<CD_CYCLE_GRAN_1!>[/REPLACE][/DYNAMICVALUES]
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Макрос DYNAMICVALUES не подходит для решения этой задачи. Для решения этой задачи ничего не могу вам предложить. Сами должны понимать, что тут (для парсинга этих характеристик) "цепляться" не за что... Только если брать все характеристики в одну ячейку CSV.
     

Поделиться этой страницей