помощь в парсинге определенного сайта

Тема в разделе "Решение различных задач по парсингу", создана пользователем Root, 10 мар 2010.

  1. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Ну, мы уже и говорить стали по китайски.
    Цвет это вот такое - 花灰
    А размер - 尺寸:
    Китайский выучить, конечно же несложно, но, говорят, долго. Не проще было бы сказать по русски,- что нужно? Вот, к примеру код размеров
    Код:
                <div class="num">
                    <ul>
                        <li><span style="float: left; width: 102px; padding-left:0;"><span  style="float: left; width:50px; padding:0; margin:0;">数量:</span>
                            <select style="float:right; width:50px; overflow:hidden;" id="selectCountk" name="select">
                                <option value='0'>数量</option>
                                <option value='1'>1</option>
                                <option value='2'>2</option>
                                <option value='3'>3</option>
                                <option value='4'>4</option>
                                <option value='5'>5</option>
                            </select>
                        </span> <span id="spanCountk" class="red" style="padding-left: 0;"></span></li>
                    </ul>
                </div>
    
    И что с ним делать? Что отсюда выбрать, а что нет?
     
  2. m899

    m899 New Member Пользователи

    Регистрация:
    17 мар 2012
    Сообщения:
    4
    это код количества, его не надо

    код всех размеров и цветов:

    Код:
    <input type="hidden" value="[{StyleCode:'032012165',ColorArr:[{ColorCode:'i57',ColorName:'花灰',ColorPic:'Color/032012165Ci57.jpg',SpecArr:[{Spec:'S',WareCode:'032012165-I57S,1172.0000,0,现在有货'},
    {Spec:'M',WareCode:'032012165-I57M,1326.0000,0,现在有货'},
    {Spec:'L',WareCode:'032012165-I57L,1276.0000,0,现在有货'},
    {Spec:'XL',WareCode:'032012165-I57XL,568.0000,0,现在有货'},
    {Spec:'XXL',WareCode:'032012165-I57XXL,927.0000,0,现在有货'}]},
    {ColorCode:'494',ColorName:'浅橙色',ColorPic:'Color/032012165C494.jpg',SpecArr:[{Spec:'S',WareCode:'032012165-494S,836.0000,0,现在有货'},{Spec:'M',WareCode:'032012165-494M,-81.0000,2,暂时售罄,预计3天内可发货'},
    {Spec:'L',WareCode:'032012165-494L,-53.0000,2,暂时售罄,预计3天内可发货'},
    {Spec:'XL',WareCode:'032012165-494XL,422.0000,0,现在有货'},
    {Spec:'XXL',WareCode:'032012165-494XXL,-29.0000,2,暂时售罄,预计3天内可发货'}]},
    {ColorCode:'050',ColorName:'蓝色',ColorPic:'Color/032012165C050.jpg',SpecArr:[{Spec:'S',WareCode:'032012165-050S,204.0000,0,现在有货'},{Spec:'M',WareCode:'032012165-050M,314.0000,0,现在有货'},
    {Spec:'L',WareCode:'032012165-050L,516.0000,0,现在有货'},
    {Spec:'XL',WareCode:'032012165-050XL,320.0000,0,现在有货'},
    {Spec:'XXL',WareCode:'032012165-050XXL,279.0000,0,现在有货'}]},{ColorCode:'010',ColorName:'白色',ColorPic:'Color/032012165C010.jpg',SpecArr:[{Spec:'S',WareCode:'032012165-010S,-1.0000,2,暂时售罄,预计3天内可发货'},
    {Spec:'M',WareCode:'032012165-010M,-46.0000,2,暂时售罄,预计3天内可发货'},
    {Spec:'L',WareCode:'032012165-010L,-43.0000,3,暂时售罄,预计5天内可发货'},
    {Spec:'XL',WareCode:'032012165-010XL,89.0000,0,现在有货'},
    {Spec:'XXL',WareCode:'032012165-010XXL,33.0000,0,现在有货'}]}]},{StyleCode:'035012152',ColorArr:[{ColorCode:'120',ColorName:'灰色',ColorPic:'Color/035012152C120.jpg',SpecArr:[{Spec:'S',WareCode:'035012152-120S,272.0000,0,现在有货'},
    {Spec:'M',WareCode:'035012152-120M,423.0000,0,现在有货'},
    {Spec:'L',WareCode:'035012152-120L,353.0000,0,现在有货'},
    {Spec:'XL',WareCode:'035012152-120XL,224.0000,0,现在有货'}]},{ColorCode:'009',ColorName:'黑色',ColorPic:'Color/035012152C009.jpg',SpecArr:[{Spec:'S',WareCode:'035012152-009S,174.0000,0,现在有货'},
    {Spec:'M',WareCode:'035012152-009M,223.0000,0,现在有货'},
    {Spec:'L',WareCode:'035012152-009L,165.0000,0,现在有货'},
    {Spec:'XL',WareCode:'035012152-009XL,1.0000,0,现在有货'}]}]}]" id="hdColorSize" />
    
    из него берутся скриптом значения в карточке товара
     
  3. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Мне код не надо показывать, я его видел
    В программе он тоже виден
    Ссылки недоступны для гостей
    И, если настроить границы, то код прекрасно копируется
    Ссылки недоступны для гостей
    А вот какие границы вам надо парсить, тут уж извините, вы так и не сказали.
     
  4. bulshop

    bulshop New Member Пользователи

    Регистрация:
    1 мар 2012
    Сообщения:
    11
    Такой вариант мне не подходит,Вы можете мне подсказать,какие действия мне нужно выполнить,чтобы получить ссылки на товар если:

    1)Главная страница сайта -ebay.com;

    2)Страница с нужными мне категориями Ссылки недоступны для гостей

    3)Страница с нужным мне товаром Ссылки недоступны для гостей

    4)Страница товара имеет вид Ссылки недоступны для гостей

    Единственное,что у меня получается,это получение ссылок на категории,фильтры не ставил,надеялся,что среди всех ссылок будут и нужные мне и я отсеял бы их в ручную,но не вышло.
    Уверен,что чего-то не учел,поэтому и не выходит,помогите разобраться пожалуйста.
     
  5. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
  6. torygmile

    torygmile New Member Пользователи

    Регистрация:
    19 авг 2011
    Сообщения:
    9
    Возможно ли сделать вывод повторяющихся границ в отдельные файлы, а не в один?
    Заранее спасибо!
     
  7. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Каждую границу в отдельные файлы? Нет
     
  8. satdata

    satdata New Member Пользователи

    Регистрация:
    16 июл 2012
    Сообщения:
    9
    Вопрос, наверно, в эту тему.
    Есть такой сайт нехороший, в котором на странице товара нет ссылки на категорию
    вот, например, категория
    Ссылки недоступны для гостей
    в левом столбце куча этих категорий, в каждой из категорий по несколько страниц с списками товаров
    Задача получить файл csv в котором все товары из категорий левого столбца. И у каждого товара в отдельном столбике должно быть название категории.
    С получением ссылок вроде бы проблем нет, а вот как имя категории взять? на странице товара то его нет.
     
  9. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Если на странице товара категории нет, значит взять неоткуда. В таком случае, чтобы была систематизация, просто надо парсить категории по отдельности. Либо всё-таки поискать в коде страницы, может быть они всё-таки есть, но в другом виде? На сайте категории обозначаются как буквенно, так и циферно. Часто, они присутствует в карточке товара. В данном случае, кажется нету и этого. Я бы посоветовал не париться, потратить лишние 15 минут, и собрать ссылки по отдельности с каждой категории, затем парсить их в отдельные папки.
     
  10. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.442
    Адрес:
    Latvia
    А чтобы не запутаться то можно использовать для сбора страниц "повторяющиеся границы" где указана будет категория для [PARAM]
    После сбора ссылок можно указать в шаблоне вывода на месте категории имено этот [PARAM]
     
  11. ЖЕКА

    ЖЕКА New Member Пользователи

    Регистрация:
    13 сен 2012
    Сообщения:
    1
    подскажите! Я парсю интернет магазин с товаром, а у меня получается что сохраняет главное фото в большом размере, а дополнительные фото в маленьком. Как сделать так чтобы при парсинге дополнительные фото товара сохранялись также в большом размере? Спасибо:)
     
  12. satdata

    satdata New Member Пользователи

    Регистрация:
    16 июл 2012
    Сообщения:
    9
    Народ, всем спасибо кто отозвался! На самом деле проблему еще тогда решили с администратором и я ему обещал отписаться в этой теме, но тут нагрянул юбилей 30 лет и завела нелёгкая )))
    Всё оказалось просто, достаточно было сменить образ мышления и принять за базовую страницу для парсинга страницу категории, а не страницу конкретного товара.
    Со страницы категории брал с помощью повторяющихся границ название и цену. Там же находил ссылку на страницу товара и с неё с помощью функции getmorecontent вытягивал фото и описание.
    С помощью другой пары повторяющихся границ брал название категории и подставлял везде.
    Видео по повторяющимся границам здесь Ссылки недоступны для гостей

    Не совсем только понял можно ли здесь использовать [INT_ID] чтоб нумерация была сквозная по всем проектам.

    Ну и напоследок переписка с работой мысли :)

    я:Есть сайт в котором на странице товара нет ссылки на категорию
    вот, например, категория
    в левом столбце куча этих категорий, в каждой из категорий по несколько страниц с списками товаров.
    Задача получить файл csv в котором все товары из категорий левого столбца. И у каждого товара в отдельном столбике должно быть название категории.
    С получением ссылок вроде бы проблем нет, а вот как имя категории взять? на странице товара то его нет. есть, конечно, вариант обрабатывать каждую категорию отдельно и ручками вбивать название потом, но хотелось бы автоматом
    Content: Думать откуда грузить категорию
    парсите отсюда

    Ссылки недоступны для гостей
    оттуда категорию взять можно
    я: а как описание товара получать - через getmorecontent?
    Content: да
    получить список таких ссылок
    Ссылки недоступны для гостей
    а с них уже парсить так
    Ссылки недоступны для гостей
    + подгружать GETMORECONTENT
     
    Последнее редактирование: 13 сен 2012
  13. satdata

    satdata New Member Пользователи

    Регистрация:
    16 июл 2012
    Сообщения:
    9
    искать в коде ссылку на большие фото, может она там есть...
     
  14. Fahrenheit

    Fahrenheit New Member Пользователи

    Регистрация:
    23 янв 2012
    Сообщения:
    8
    Подскажите с выводом в CSV.Есть повторяющиеся границы в количестве 2 штук.Выводятся макросом <CD_CYCLE_GRAN_ALL!>. Но проблема.Нужно [VALUE]:[VALUE];[VALUE]:[VALUE]; чтобы было все в одной колонке. Но если ко второй границе добавить ";" то он для каждого цикла повторяющихся страниц делает свою колонку.
     
  15. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.442
    Адрес:
    Latvia
    После выхода второй версии Content Downloader , "повторяющееся границы" изменились в лучшую сторону.
    Может вашу задачу можно решить одной а не несколькими?
    Не хочеться повторять то что писалось недавно - http://forum.sbfactory.ru/showthread.php?t=104&page=2 принцип работы повт.границ
     
  16. Fahrenheit

    Fahrenheit New Member Пользователи

    Регистрация:
    23 янв 2012
    Сообщения:
    8
    Можно бы было, но увы не получается перечислять значений.Вот Ссылки недоступны для гостейпроекта, и я получаю только первое вхождение границ. В чем я ошибся или не понял?
     
  17. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.442
    Адрес:
    Latvia
    Как и предпологалось, можно решить одной повторяющееся границей. В настройках рабочий пример, подкоректируете сами.
    _http://rghost.ru/40624381
    Обратите внимание что все макросы перекочевали в окно настроек повт.границы а в шаблоне вывода все потом готовое выводится через <CD_CYCLE_GRAN_ALL!>
     
  18. Fahrenheit

    Fahrenheit New Member Пользователи

    Регистрация:
    23 янв 2012
    Сообщения:
    8
    Увы нет. Меня не поняли чуть чуть.Вот именно как есть шаблон вывода, так его и нужна оставить, так как при импорте, движок требует ввод характеристик только в одной ячейке и перечислять их ";". Пример:
    Характеристики
    Тип:Холодильник;Цвет:Зеленый;
    Это все должно быть в одной ячейке одного товара.
     
  19. alarm

    alarm New Member Пользователи

    Регистрация:
    5 окт 2012
    Сообщения:
    3
    Пытаюсь настроить проект для парсинга Яндекс.Маркета, пока не работает - не понимаю, как назначить имя для картинок, и как эти картинки тянуть с другого урл-а (программа парсит сразу страницы с характеристиками, но там картинки только маленькие). Вот мой код:
    Третья граница - это имя товара, которое идет на странице в заголовке <h1>. Понимаю, что наверно надо не так, но как надо - не понимаю.
    Но самый большой вопрос - с GETMORECONTENT, там используется четвертая граница (урл с относительной ссылкой на основную страницу товара, где лежит полноразмерное изображение). Меня смущают никак не экранированные кавычки в условиях.
    Вот так выглядит результат выполнения этого кода
    Парсинг идет в txt, разделители я сам выбрал такие, потому что удобно для меня.
     
    Последнее редактирование: 5 окт 2012
  20. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.442
    Адрес:
    Latvia
    ничего страшного, программа поймет правильно. А картинки в ямаркете иногда разные бывают (мини картинки с 3д моделью например и т.д.)
    Для указания адреса на краткое описание можно использовать
     

Поделиться этой страницей