Страницу с картинками в CSV

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем Pyrocar, 23 июл 2013.

  1. Pyrocar

    Pyrocar New Member Пользователи

    Регистрация:
    23 июл 2013
    Сообщения:
    2
    Здравствуйте. Нужно спарсить сайт-каталог плитки в файл формата CSV, где бы указывалось:
    1) Название товара
    2) Размеры
    3) Артикул
    4) Путь к картинке
    Проблема в том, что на данный момент каталог представлен обычными html страницами. Например, вот - Ссылки недоступны для гостей

    Эта страница - каталог коллекции и каждая картинка на ней - отдельный товар. Соответственно, то, что находится под каждой картинкой - это и есть характеристики товара (Название-размер-артикул). Я уже голову сломал, каким образом выдернуть все в CSV, пожалуйста, помогите.
     
  2. nikolas1612

    nikolas1612 Member Пользователи

    Регистрация:
    27 ноя 2011
    Сообщения:
    439
    у вас классический случай. вкратце - повторяющейся границей отделяете один товар от другого, а внутри блоков этой повторяющейся границы нарезаете обычные границы, как посчитаете нужным.
     

    Вложения:

    • ndom_info.cdp
      Размер файла:
      26,7 КБ
      Просмотров:
      10
    Последнее редактирование: 23 июл 2013
  3. Pyrocar

    Pyrocar New Member Пользователи

    Регистрация:
    23 июл 2013
    Сообщения:
    2
    Спасибо, что откликнулись!
    Однако, не работает метод. Точнее, работает только на некоторых страницах. В основном, если на странице 5-10 товаров, парсит только 2-4, не больше. К примеру, возьмем эту страницу: Ссылки недоступны для гостей

    Из 5 товаров парсится только 2, причем один из них - с косяком.
    Мне кажется, что это происходит из-за того, что повторяющаяся граница некорректно указана, но как ни пытался исправить ваш шаблон - получается только хуже :)
     
  4. nikolas1612

    nikolas1612 Member Пользователи

    Регистрация:
    27 ноя 2011
    Сообщения:
    439
    повторяющаяся граница как раз-таки указана верно, но почему-то находит только часть циклов (в приведенном вами примере - всего 2 из 5, а должно как минимум 4). такое впечатление, что одни и те же теги написаны разными символами и граница через раз не срабатывает. х.е.з. ждите пока откликнутся другие, мне причина не ясна.
     
  5. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.429
    Адрес:
    Latvia
    похоже на ручное заполнение и тут спарсить не все получиться.
    п.с. настроить именно на вборку всех неполучается чтото пропускает
     
    Последнее редактирование: 24 июл 2013
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    ...
     

    Вложения:

  7. nikolas1612

    nikolas1612 Member Пользователи

    Регистрация:
    27 ноя 2011
    Сообщения:
    439
    в общем, автор программы объяснил ошибку. в повторяющейся границе начало и конец, по возможности, не должны совпадать, иначе возможны наслоения.
    П.С. от так. век живи - век учись.
     

Поделиться этой страницей