Парсинг фото javascript

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем rezhisser, 20 апр 2017.

  1. rezhisser

    rezhisser New Member Пользователи

    Регистрация:
    12 дек 2014
    Сообщения:
    22
    Добрый день!
    Товар может содержать опции - Ссылки недоступны для гостей

    html-код товара содержит javascript блок с массивом атрибутов товара (sku+фото+еще что-то)
    HTML:
    <script type="text/javascript">
            var spConfig = new Product.Config({"attributes":{"productStocks":{"12747":{"in_stock":"1","sku":"17-022577","storeSku":"17-022577","link":""},"12748":{"in_stock":"1","sku":"17-022578","storeSku":"17-022578","link":""},"12749":{"in_stock":"1","sku":"17-022579","storeSku":"17-022579","link":""},"12750":{"in_stock":"1","sku":"17-022580","storeSku":"17-022580","link":""}},"92":{"id":"92","code":"color","label":"Colour\/Pattern","options":[{"id":"1791","label":"Pale Pink","price":"0","oldPrice":"0","products":["12747"],"productSkus":["17-022577"],"productAltSkus":["17-022577"],"productStocks":{"12747":{"in_stock":"1","sku":"17-022577","storeSku":"17-022577","link":""}},"video":null,"optionSwatch":"http:\/\/dsns878bgouy7.cloudfront.net\/media\/swatch\/pale-pink.jpg","mediaImage":["http:\/\/dsns878bgouy7.cloudfront.net\/media\/catalog\/product\/d\/o\/domino-soft-personal-pink-front_2.jpg","http:\/\/dsns878bgouy7.cloudfront.net\/media\/catalog\/product\/d\/o\/domino-soft-personal-pink-open-empty.jpg","http:\/\/dsns878bgouy7.cloudfront.net\/media\/catalog\/product\/d\/o\/domino-soft-personal-pink-isometric.jpg","http:\/\/dsns878bgouy7.cloudfront.net\/media\/catalog\/product\/d\/o\/domino-soft-pers.jpg"],"productType":"configurable"},{"id":"1790","label":"Pale Blue","price":"0","oldPrice":"0","products":["12748"],"productSkus":["17-022578"],"productAltSkus":["17-022578"],"productStocks":{"12748":{"in_stock":"1","sku":"17-022578","storeSku":"17-022578","link":""}},"video":null,"optionSwatch":"http:\/\/dsns878bgouy7.cloudfront.net\/media\/swatch\/pale-blue.jpg","mediaImage":["http:\/\/dsns878bgouy7.cloudfront.net\/media\/catalog\/product\/d\/o\/domino-soft-personal-blue-front_1_1.jpg","http:\/\/dsns878bgouy7.cloudfront.net\/media\/catalog\/product\/d\/o\/domino-soft-personal-blue-open-empty.jpg","http:\/\/dsns878bgouy7.cloudfront.net\/media\/catalog\/product\/d\/o\/domino-soft-personal-pale-blue-isometric.jpg","http:\/\/dsns878bgouy7.cloudfront.net\/media\/catalog\/product\/d\/o\/domino-soft-pers_1.jpg"],"productType":"configurable"},{"id":"1249","label":"Duck Egg","price":"0","oldPrice":"0","products":["12749"],"productSkus":["17-022579"],"productAltSkus":["17-022579"],"productStocks":{"12749":{"in_stock":"1","sku":"17-022579","storeSku":"17-022579","link":""}},"video":null,"optionSwatch":"http:\/\/dsns878bgouy7.cloudfront.net\/media\/swatch\/filofax-duck-egg-blue.jpg","mediaImage":["http:\/\/dsns878bgouy7.cloudfront.net\/media\/catalog\/product\/d\/o\/domino-soft-personal-aqua-front_1_1.jpg","http:\/\/dsns878bgouy7.cloudfront.net\/media\/catalog\/product\/d\/o\/domino-soft-personal-duck-egg-isometric.jpg","http:\/\/dsns878bgouy7.cloudfront.net\/media\/catalog\/product\/d\/o\/domino-soft-personal-aqua-open-empty_1.jpg","http:\/\/dsns878bgouy7.cloudfront.net\/media\/catalog\/product\/d\/o\/domino-soft-pers_3.jpg"],"productType":"configurable"},{"id":"1635","label":"Fawn","price":"0","oldPrice":"0","products":["12750"],"productSkus":["17-022580"],"productAltSkus":["17-022580"],"productStocks":{"12750":{"in_stock":"1","sku":"17-022580","storeSku":"17-022580","link":""}},"video":null,"optionSwatch":"http:\/\/dsns878bgouy7.cloudfront.net\/media\/swatch\/fawn.jpg","mediaImage":["http:\/\/dsns878bgouy7.cloudfront.net\/media\/catalog\/product\/d\/o\/domino-soft-personal-fawn-front_2.jpg","http:\/\/dsns878bgouy7.cloudfront.net\/media\/catalog\/product\/d\/o\/domino-soft-personal-fawn-open-empty.jpg","http:\/\/dsns878bgouy7.cloudfront.net\/media\/catalog\/product\/d\/o\/domino-soft-personal-fawn-isometric.jpg","http:\/\/dsns878bgouy7.cloudfront.net\/media\/catalog\/product\/d\/o\/domino-soft-pers_2.jpg"],"productType":"configurable"}]},"260":{"id":"260","code":"year","label":"Year","options":[{"id":"1270","label":"2017","price":"0","oldPrice":"0","video":null,"products":["12747","12748","12749","12750"],"productSkus":["17-022577","17-022578","17-022579","17-022580"],"productAltSkus":["17-022577","17-022578","17-022579","17-022580"],"productStocks":{"12747":{"in_stock":"1","sku":"17-022577","storeSku":"17-022577","link":""},"12748":{"in_stock":"1","sku":"17-022578","storeSku":"17-022578","link":""},"12749":{"in_stock":"1","sku":"17-022579","storeSku":"17-022579","link":""},"12750":{"in_stock":"1","sku":"17-022580","storeSku":"17-022580","link":""}},"productType":"configurable"}]}},"template":"\u00a3#{price}","basePrice":"27","oldPrice":"27","productId":"12746","chooseText":"Choose an Option...","taxConfig":{"includeTax":false,"showIncludeTax":true,"showBothPrices":false,"defaultTax":20,"currentTax":20,"inclTaxTitle":"Incl. Tax"}});
        </script>


    начало блока
    HTML:
    <div id="configurable-options" class="clearfix"></div>
    <script type="text/javascript">

    конец блока
    HTML:
    </script>
    При выборе опций в
    HTML:
    <div class="gallery clearfix">
    подтягиваются нужные фото.

    Подскажите, как спарсить "активные" фото, т.е. те, которые соответствуют выбранным опциям?
    Проект во вложении.
     

    Вложения:

    • filofax.cdp
      Размер файла:
      40,7 КБ
      Просмотров:
      3
  2. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.432
    Адрес:
    Latvia
    Начало границы
    Код:
    ,"mediaImage":["
    конец границы "
     
  3. rezhisser

    rezhisser New Member Пользователи

    Регистрация:
    12 дек 2014
    Сообщения:
    22
    мне не нужно все фото парсить, мне нужны только фото, которые соответствуют выбранным опциям Size и Colour/Pattern

    т.е.
    для ссылки Ссылки недоступны для гостей
    мне нужно третье вхождение ,"mediaImage":["
    для ссылки Ссылки недоступны для гостей
    первое вхождение ,"mediaImage":["
    и т.д.
     
  4. rezhisser

    rezhisser New Member Пользователи

    Регистрация:
    12 дек 2014
    Сообщения:
    22
    Если смотреть HTTP заголовки, то при смене Colour/Pattern для каждой фото создается get-запрос...
    Но я не знаю, как их от туда спарсить.
    посмотрел видео "Как парсить контент, которого нет в коде страницы (контент подгружается скриптами)", но там немного другая ситуация, насколько я понял...
     
  5. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Приветствую
    Уважаемый rezhisser дык может вы определитесь))) что именно вам нужно.
    Потому что сейчас это звучит очень даже плохо.
    Если в одном случае вы берете 1 вид границы, а в другом - другой.
    не совсем понятно, в чем у вас проблема?)
    Приведите ссылки, приведите примеры, приведите шаблон контента в конце - концов.
    И самое главное выходной csv файл, с разными вариациями.
    А до тех пор, пишите в таком духе дальше - получите абстрактные ответы.
     
  6. rezhisser

    rezhisser New Member Пользователи

    Регистрация:
    12 дек 2014
    Сообщения:
    22
    Выходной файл прилагаю - Ссылки недоступны для гостей

    Данные, которые я не знаю как спрарсить в колонках Фото и Артикул
     
  7. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    такое ощущение, что вы совсем не пробовали их искать.
     

    Вложения:

  8. rezhisser

    rezhisser New Member Пользователи

    Регистрация:
    12 дек 2014
    Сообщения:
    22
    такое ощущение, что вы не читали первый пост в данной теме.

     
  9. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    включите галочку Контент (ctrl+h) и парсите, все равно не понимаю в чем проблема.
     
  10. rezhisser

    rezhisser New Member Пользователи

    Регистрация:
    12 дек 2014
    Сообщения:
    22

    Даны 4 ссылки

    1 - Ссылки недоступны для гостей
    2 - Ссылки недоступны для гостей
    3 - Ссылки недоступны для гостей
    4 - Ссылки недоступны для гостей

    Известны границы парсинга нужных мне данных
    для фото - ,"mediaImage":[" и "
    для артикула - "sku":" и "

    Проблема 1 - в каждой ссылке отличается номер вхождения данных.

    для 1-ой ссылки
    - фото - 3-е вхождение
    - артикул - 3-е вхождение

    для 2-ой ссылки
    - фото - 4-е вхождение
    - артикул - 4-е вхождение

    Я такое не умею парсить. Обычно границы вхождения одинаковые... А тут нужно как-то определять, что для такой-то ссылки брать данные из 3-го вхождения, а для другой из 4-го и т.д.

    Проблема 2 (обнаружил только что) - для 3-ей и 4-ой ссылки нет данных вообще.
    Т.е. в сгенеренном HTML нет
    - артикулов 17-022584 и 17-022583
    - фото, например - domino-soft-pocket-fawn-front.jpg и domino-soft-pocket-aqua-front_2.jpg
     
  11. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Вот и нам непонятно, как быть с этим сайтом.
     
  12. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Включите галочку контент
    И парсите обычними границами картинки
    <div class="gallery clearfix"> .... </div>
    и product code
    <span class="sku"> .... </span>
     
    Root нравится это.
  13. rezhisser

    rezhisser New Member Пользователи

    Регистрация:
    12 дек 2014
    Сообщения:
    22
    спасибо, теперь понял, не внимательный(
     
    Root и Kreol нравится это.
  14. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    пожалуйста
     
    Root нравится это.

Поделиться этой страницей