Много товаров с разными полями характеристик.

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем makaveli4fun, 22 авг 2012.

  1. makaveli4fun

    makaveli4fun New Member Пользователи

    Регистрация:
    22 авг 2012
    Сообщения:
    4
    Собственно сабж. Хочу купить ContentDownloader, изучил все видео.
    И возник такой вопрос: на сайте у поставщика 5+к товаров (от якорей до гаячек) и почти все с разными полями характеристик (таблица характеристик после описания) вида
    HTML:
    ...
    <tr>
            <th>MAX вес, кг</th>
            <td>540</td>
    </tr>
         <tr>
            <th>Бренд</th>
            <td>Load Rite</td>
         </tr>
    <tr>
            <th>Габариты (AxBxCxD), мм</th>
            <td>4м x 1,6м</td>
     </tr>
    ...
    
    Некоторые характеристики конечно повторяются для одинковых типов товаров.

    Собственно проблема в том, что клиенту надо будет фильтровать товары по характеристикам (вес, мощьность и т.д) и мне надо это все спарсить. Как поступить незнаю...прошу помощи советом)
     
  2. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Надо смотреть сайт. Телепатировать сложно. Случаев тысячи, каждый решается индивидуально. Есть, конечно, сайты, на которые проще плюнуть, но, чаще всего, задачи решаемы. Покажите пару примеров, с подробным описанием того какие характеристики надо парсить, в каком виде, с каких страниц.
     
  3. makaveli4fun

    makaveli4fun New Member Пользователи

    Регистрация:
    22 авг 2012
    Сообщения:
    4
    Ссылки недоступны для гостей
    Допустим раздел "Моторы" спарсить не составит труда, а вот раздел "Электрооборудование" и ему подобные уже не знаю. Слишком много разных типов товаров...а характеристики нужны.
     
  4. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Вас просили:

    - покажите ЧТО вам нужно парсить
    - какие позиции
    - в каком виде хотите получить спарсенное.

    Для меня ваши товары ровным счётом ничего не значат. Ссылка на сайт и даже название категории ни о чём не говорит. У меня физически нет временим разбираться с системой навигации вашего сайта, додумывать, что вам оттуда надо, а что нет. Это вы мне должны показать.

    - Вот, карточка товара,- ссылка
    - с неё надо спарсить, к примеру, наименование товара, артикул, картинку, вес, цену и так далее
    - нужно вывести в csv, html или ещё куда-то

    Сделайте подробный запрос, тогда поговорим дальше
     
  5. makaveli4fun

    makaveli4fun New Member Пользователи

    Регистрация:
    22 авг 2012
    Сообщения:
    4
    С этого надо было начинать.
    Вы не поняли суть проблемы. Мне не составляет труда парсить товары с одинаковыми полями характеристик. Меня интересует, что мне делать в такой ситуации:

    1. Вот два разных товара, они находятся в одной категории и у них разные поля характеристик. В данной категории у одного товара много характеристик у второго они другие и их меньше и т.д
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей

    2. Со всех товаров надо спарсить:
    1)Наименование
    2)Код товара
    3)Бренд
    4)Цена
    5)Описание
    6) !!! характеристики (вот где трудность, они везде разные)

    3. Мой движок обновляет базу с txt файла, но это не как не относится к моей проблеме.

    Я просто прошу совета, как поступить...
     
  6. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Понимать было нечего. То, о чём вы думаете, мне недоступно.

    Теперь немного понятнее из того, что вам нужно, но не совсем. Как тяжело современному человеку формулировать свои вопросы внятно.
    Ничего сложного в настройках данных этих двух ссылок нету. В самом сайте тоже, в каждой конкретной категории, поля, примерно одинаковые. Что могу посоветовать,- лучше парсить отдельно, по категориям, получите чистый контент, без мусора. На данный момент, сделайте следующее:

    - настраиваете нужные вам поля, лучше всего по той карточке, где больше всего полей. Насколько я понимаю, они, на одну категорию должны быть везде одинаковые, только их количество разное
    - в программе задаёте каждому полю отдельную настройку, придётся повозить, и найти максимум возможных комбинаций. Настраивать нужно так, чтобы захватить в границе имя, например, "Напряжение питания, В", тогда ошибки не будет, если такой границы нет, она не подгрузится.
    - при парсинге программе можно задать дополнительные опции (у каждой настриваемой границы свои дополнительные настройки), в которых указать, что делать, если какое-то поле отсутствует. Думаю, в вашем случе ничего не надо указывать, Эта граница просто не загрузит ничего.

    А вот в каком виде вам нужно получить спарсенное вы так и не сказали, поэтому гадать не буду.
     
  7. makaveli4fun

    makaveli4fun New Member Пользователи

    Регистрация:
    22 авг 2012
    Сообщения:
    4
    Valiks, спасибо за внятный ответ.
     
  8. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Получилось настроить или нет?
     

Поделиться этой страницей