Парсинг описания с aliexpress

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем Japonec, 27 дек 2016.

  1. Japonec

    Japonec Well-Known Member Пользователи

    Регистрация:
    19 июл 2015
    Сообщения:
    92
    Адрес:
    Kiev
    Здравствуйте.
    Хотел спарсить "Описание" с али, но столкнулся с проблемой, что при выборе границ, нету кода для выбора нужной мне граници, это если смотреть через саму программу.

    Если открыть просто браузер и глянуть исходный код, те нужные участки кода в описании открыты.

    Знаю, что грузится как то через скрипт всё, но не пойму самого механизма генерации. Название, картинки, характеристики могу спарсить спокойно, а вот в описании если искать нужный мне участок кода его нету, всего прописан один див в виде:
    <div class="description-content" data-role="description" data-spm="1000023">
    <div class="loading32"></div>
    </div>
    , вот в этом диве, если смотреть через обычный браузер, и генерируется весь код.
    [​IMG]

    Уже выделял в парсере его <div class="loading32"></div>, но воз и ныне там. Пересмотрел похожие темы, с использованием GETMORECONTENT, но там только нашел примеры проектов по парсингу картинок, но не самого описания. И это включал "Internet Explorer (DOM)" на "контент", и включал выполнение скриптов в браузере.

    Так же читал, что с али трудоемкий процесс парсинга такого добра. заранее спасибо.

    Пример юрл для парсинга
    Ссылки недоступны для гостей
     
    Последнее редактирование: 27 дек 2016
  2. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Здравствуйте!
    подключите DOM (ctrl+h вкладка контент)
     
  3. Japonec

    Japonec Well-Known Member Пользователи

    Регистрация:
    19 июл 2015
    Сообщения:
    92
    Адрес:
    Kiev
     
  4. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    Ищите в коде составные части ссылки что выше и забирайте через getmorecontent
     
    Japonec нравится это.
  5. Japonec

    Japonec Well-Known Member Пользователи

    Регистрация:
    19 июл 2015
    Сообщения:
    92
    Адрес:
    Kiev
    Спасибо, щас буду пробовать.
     
  6. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    ну или делать прокрутку вниз через wbapp но это будет дольше и нерационально
     
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Через IE парсите (если не IE (DOM) не прогружает данные, может не успевает? Окно IE появляется при предпросмотре, посмотрите, есть ли там нужные данные).
     
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    2016-12-28_03-32-45.png

    2016-12-28_03-33-18.png

    2016-12-28_03-32-16.png
     
    CSVCS и Kreol нравится это.
  9. CSVCS

    CSVCS New Member Пользователи

    Регистрация:
    28 дек 2016
    Сообщения:
    42
    Спасибо большое. 3 дня маялся с аналогичной проблемой. Без вашего поста с картинками в жизни бы не справился. Теперь все как надо. Только после отработки событий 9 из 11 полей CVS теперь пустые, изменился код начала/конца границ, но это не проблема, главное, что теперь в коде есть всё что надо.
    Подскажите еще - при использовании WBApp количество потоков и интервал запуска потоков надо как-то ограничить, если да, то до каких значений. Может еще какие настройки, относительно установленных по умолчанию, надо поменять.

    Доп. картинки парсил с помощью макроса GETMORECYCLECONTENT по рекомендации из этого поста . Получалось что-то типа [IMAGESNAMES][TRANSLITE][CLEAR]<CD_GRAN_14!>[/IMAGESNAMES][GETMORECYCLECONTENT]Ссылки недоступны для гостей[START]src="[/START][END]"[/END][TOSTART]<NIMG>[/TOSTART][TOEND]</NIMG>[/TOEND][PARAMS][/PARAMS][SEP],[/SEP][/GETMORECYCLECONTENT]. После подключения WBApp эти картинки загружаться тоже перестали. Но я не сильно расстроился. Все равно тем методом помимо нужных картинок товара загружаются и картинки к товару не относящиеся (иконки платежных систем или что-то типа того) и я еще не успел разобраться как (в каком месте вставить) и можно ли вообще применить макрос <DOWNLOADFILE>, чтобы эти картинки скачивались. Если подскажите правильное решение, буду Вам очень признателен. Спасибо.
     
    Root нравится это.
  10. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Через IE (DOM) желательно парсить не более, чем в 2 потока с соблюдением такой методики Ссылки недоступны для гостей
    Интервал запуска потоков не важен.

    С уважением к вам, Сергей.
     
  11. CSVCS

    CSVCS New Member Пользователи

    Регистрация:
    28 дек 2016
    Сообщения:
    42
    В вашем примере в проекте макрос [SCROLLBYSCREENTHENRETURN] идет два раза подряд. Это так надо или опечатка?
     
  12. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    если внимательно прочитаете, то это прокутка на 1 "видимый" экран вниз. Для того чтоб подойти к описанию надо минимум 2)
     
    CSVCS и Root нравится это.
  13. CSVCS

    CSVCS New Member Пользователи

    Регистрация:
    28 дек 2016
    Сообщения:
    42
    А из-за чего могут быть такие пропуски в коде (не на всех страницах страницах товара) и как с этим бороться? Тайм-аут увеличивать пробовал - не помогает.

    [​IMG]
     
  14. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    примените поиск/замену (ctrl+4 для выбраной границы)
    Код:
    re:[\s\t]+|
    <{skip}>|
    
     

Поделиться этой страницей