Несколько вопросов по парсингу

Discussion in 'Решение различных задач по парсингу' started by ВладБлад, Jun 6, 2013.

  1. ВладБлад

    ВладБлад New Member Пользователи

    Joined:
    Jun 6, 2013
    Messages:
    28
    Привет!
    1. На страницах товара по разному пишутся названия (одного и того же) атрибута товара. Например:

    Кол-во ламп
    Лампочки
    Количество ламп

    Но Всё это одно и тоже: Количество ламп. Видимо менеджер вносил от балды названия атрибутов.

    Вопрос: Как правильно спарсить такое явление в один столбец?

    2. В одном атрибуте товара занесено два атрибута.
    Например:
    Диаметр: 300мм, Высота 200мм.
    А в другом товаре, есть отдельный атрибут Высота.

    Вопрос: Как спарсить атрибут Высота (из разных товаров) в один столбец?

    3. По разному написаны данные атрибута.
    Пример:
    <p>Напряжение: 220V</p>
    <br /> Напряжение: &nbsp;230 В.<br />

    Что в этом случае лучше делать? У меня это сама распространненая ошибка. Еще одни поля делать?
     
    Last edited: Jun 6, 2013
  2. ВладБлад

    ВладБлад New Member Пользователи

    Joined:
    Jun 6, 2013
    Messages:
    28
    Может кто-нибудь помочь?
     
  3. kagorec

    kagorec Администратор Staff Member Администратор

    Joined:
    Jan 3, 2011
    Messages:
    4,442
    Location:
    Latvia
    начало границы "Напряжение: " и конец границы "<"
    Иначе никак.
     
  4. ВладБлад

    ВладБлад New Member Пользователи

    Joined:
    Jun 6, 2013
    Messages:
    28
    Так я уже сделал для одной границы. Но Тогда другое "напряжение" не парсится.
    Т.е. Две разные границы делать для каждого "Напряжения"?

    А! понял намек. Попробую. придется вычищать тогда данные.
     
  5. kagorec

    kagorec Администратор Staff Member Администратор

    Joined:
    Jan 3, 2011
    Messages:
    4,442
    Location:
    Latvia
    Смело цепляйтесь границей за уникальную частицу контента, это может быть необязательно тег но и слово/предложение.
     
  6. ВладБлад

    ВладБлад New Member Пользователи

    Joined:
    Jun 6, 2013
    Messages:
    28
    Спасибо. Решил задачу благодаря Вам.
     

Share This Page