За что зацепиться в границах

Тема в разделе "Границы парсинга", создана пользователем ergoline, 23 ноя 2017.

  1. ergoline

    ergoline New Member Пользователи

    Регистрация:
    15 сен 2011
    Сообщения:
    49
    Адрес:
    UA
    Город:
    Kiev
    Нужно спарсить данные из магазина, и адаптировать для экспорта в опенкарт 2302
    Жертва старый оскоммерц (как я думаю), и ставили его тогда, когда о сео еще не знали(
    Теперь к самой теме.
    Хочется сразу получить инфу в столбцы csv по макимуму, но... тут хозяева сайта обеденили все что можно -
    Название товара состоит из
    артикула, производителя ( и то иногда сокращенное название - не такое как в разделе производителей), и собственно названия товара, еще бывает строка типа спецификация, но не всегда(.
    То есть единого алгоритма не вижу для разбивки названия и производителя из этой строки кроме артикула (ну он как раз повторяется на странице часто) я пока то не вижу.
    Но может какие то варианты есть?
    ( а то парсингом занимаюсь очень редко, и могу многого не знать)

    1 .
    HTML:
    To See Prices</font></FONT></b></span></font></FONT></b></h1> 
    это предыдущая строка (скрытая цена. - то что справа)
     
    2. <h1>PD2028-15<br> Pipedreams<br> Fetish Fantasy Limited Edition<br> Lover's Bondage Kit<br /><span class="smallText">[PD2028-15]</span></h1>
    </div>
    [​IMG]
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Ссылки недоступны для гостей

    Можно даже в макрос вставить полный список артикулов, производителей или других данных.
     
    ergoline нравится это.
  3. ergoline

    ergoline New Member Пользователи

    Регистрация:
    15 сен 2011
    Сообщения:
    49
    Адрес:
    UA
    Город:
    Kiev
    Не...
    Там не много иначе - я заранее не знаю этих арктикулов(
    По этому лучше составлю правильное тз и наверно буду заказывать проект у ребят.
     
    Root нравится это.

Поделиться этой страницей