С помощью WBapp не удается взять все характеристики

Тема в разделе "WBAppIE", создана пользователем Grafin, 25 июн 2019.

  1. Grafin

    Grafin Member Пользователи

    Регистрация:
    14 ноя 2018
    Сообщения:
    130
    Город:
    Киров
    Здравствуйте.
    Вот страница
    Ссылки недоступны для гостей
    WBapp настроен так:
    [GETHTML]
    [WAIT]:500
    [CLICK][innerhtml][N]0[/N][FULL]:<!-- react-text: 459 -->Характеристики<!-- /react-text -->
    При проверке проекта в WBapp настройки срабатывают, клик происходит, характеристики разворачиваются.
    Но при дальнейшей настройке границ парсинга в код страницы все характеристики так и не подгружаются, потому не могу их взять.
    Что не так?
    upload_2019-6-25_16-45-44.png
     
    Последнее редактирование: 25 июн 2019
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Проект WBApp для этого сайта делать не нужно.

    Характеристики там сразу есть в коде.

    2019-06-25_20-48-36.png
     
  3. Grafin

    Grafin Member Пользователи

    Регистрация:
    14 ноя 2018
    Сообщения:
    130
    Город:
    Киров
    Сергей, в коде есть только те, которые есть в сокращенном представлении выше по странице.
    Все остальные характеристики по клику на "Характеристики".
    Но как я и писал выше, при проверке в проекте WBApp клик раскрывает характеристики. Но клике на кнопку задания границ парсинга документ подгружается без раскрытия всех характеристик и их нет в коде страницы (((
    upload_2019-6-25_21-30-38.png
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Уберите [GETHTML] и после события клика поставьте [WAIT]:500
     
  5. Grafin

    Grafin Member Пользователи

    Регистрация:
    14 ноя 2018
    Сообщения:
    130
    Город:
    Киров
    страница по вышеуказанной ссылке - отлично!
    Но взял две другие - и никак.
    Обратил внимание, что на какую настроил клик, та и отдает весь список характеристик. Другие страницы слетают.
    Делал так:
    [CLICK][innerhtml][N]0[/N][FULL]:<!-- react-text: 439 -->Характеристики<!-- /react-text -->
    [WAIT]:500
    а вот другая страница
    [CLICK][innerhtml][N]0[/N][FULL]:<!-- react-text: 459 -->Характеристики<!-- /react-text -->
    [WAIT]:500

    В клике есть переменная цифра, добавил {skip}, вроде работает.
    [CLICK][innerhtml][N]0[/N][FULL]:<!-- react-text: {skip} -->Характеристики<!-- /react-text -->

    Спасибо за помощь!

    Остался один нюанс... теперь текст описания исчез из кода. Мне также добавить еще одно очередное событие клика в проект WBApp?

    Сделал так и теперь берет описание, ног не берет характеристики (((
    [CLICK][innerhtml][N]0[/N][FULL]:<!-- react-text: {skip} -->Характеристики<!-- /react-text -->
    [WAIT]:500
    [CLICK][innerhtml][N]0[/N][FULL]:<!-- react-text: {skip} -->Описание<!-- /react-text -->
    [WAIT]:500
     
    Последнее редактирование: 25 июн 2019
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    [GETHTML] в начало и в конец добавьте.
     
  7. Grafin

    Grafin Member Пользователи

    Регистрация:
    14 ноя 2018
    Сообщения:
    130
    Город:
    Киров
    Такая схема сработала:
    [CLICK][innerhtml][N]0[/N][FULL]:<!-- react-text: {skip} -->Характеристики<!-- /react-text -->
    [WAIT]:500
    [GETHTML]
    [CLICK][innerhtml][N]0[/N][FULL]:<!-- react-text: {skip} -->Описание<!-- /react-text -->
    [WAIT]:500
    [GETHTML]
     
    Последнее редактирование: 26 июн 2019
    Root нравится это.
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Можете рассмотреть и такой вариант, если скорость парсинга не устроит.

     
  9. Grafin

    Grafin Member Пользователи

    Регистрация:
    14 ноя 2018
    Сообщения:
    130
    Город:
    Киров
    Да, скорость низкая.
    Делаю в два потока, чтобы все ссылки были обработаны.
    Изучу последний вариант.
     
  10. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    все о товаре, блок "PROPERTIES": конкретно характеристики
     
  11. Grafin

    Grafin Member Пользователи

    Регистрация:
    14 ноя 2018
    Сообщения:
    130
    Город:
    Киров
    Здорово! Так конечно будет быстрее.
    В общем проверил, но доп фото подгружаются по другому запросу, нужно еще с ними решить как брать.
    И пока мучения со сбором ссылок, банит. Пробовал через AdvOR - тоже банит.
    Попробую еще публичные прокси собрать и проверить
    ссылки собираю так (один из брендов)
    Ссылки недоступны для гостей
    Ищу.... если возможно, то подскажите вариант для ускорения сбора.
    "лучше сейчас один час потерять, а потом за 5 минут долететь )))"
     
    Последнее редактирование: 26 июн 2019
  12. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    1) Я не понимаю проблемы по аналогии (с поиском URL для подгрузки данных товара в видео выше) отыскать адрес подгрузки доп фото и скачать их с помощью макроса [GETMORECONTENT]. Вы видели, что это делается за несколько минут.

    2) Также не понимаю проблемы по аналогии с методом в видео узнать адреса, откуда подгружается выдача страниц рубрики и парсить ссылки с них без использования браузера.
     
  13. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Если банит, найдите нормальные прокси. И я не знаю, смена IP (с помощью прокси) повлияет ли как-то на параметр access_token. Если да, то можно сделать способ автоматического получения этого параметра.
     
  14. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
     
    Grafin нравится это.
  15. Grafin

    Grafin Member Пользователи

    Регистрация:
    14 ноя 2018
    Сообщения:
    130
    Город:
    Киров
    Спасибо огромное. Ваша лояльность каждому бы.
    Все эти вопросы возникают о недостатка понимания, как работают принципы обработки в программе. И недостатка дополнительных знаний.
    Спасибо, что уделили внимание.
     
  16. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Пожалуйста
     
  17. Grafin

    Grafin Member Пользователи

    Регистрация:
    14 ноя 2018
    Сообщения:
    130
    Город:
    Киров
    Здравствуйте. Вы достаточно доходчиво пояснили, как можно преобразовать ссылку с основными данными (название, описание и т.п.) в вид для парсинга минуя браузер.
    Я нашел и изучил в мониторе вид ссылки для сбора доп.картинок. Я могу и в этот вид преобразовать основную ссылку. Но я не могу понять, как собрать и то и другое одновременно с одной ссылки. Можно как-то одновременно одну ссылку преобразовать сразу в два вида и взять эти результаты в один результат на выходе для дальнейшего парсинга? Или как-то иным путем?
    Например вот основная ссылка
    Ссылки недоступны для гостей
    Это то, где все кроме доп.картинок
    Ссылки недоступны для гостей
    Это доп.картинки
    Ссылки недоступны для гостей
     
  18. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Ссылки недоступны для гостей
     
    Grafin нравится это.
  19. Grafin

    Grafin Member Пользователи

    Регистрация:
    14 ноя 2018
    Сообщения:
    130
    Город:
    Киров
    Разобрался таки... уфф... пытался сам. Мозг чуть не взорвался.
    Остался один вопрос, возможно для вас он прост, но я столкнулся впервые.
    В коде документа последовательность характеристик записана не как часто бывает например "Кресло" "качалка", а наоборот "качалка" "Кресло".
    Как спарсить в csv в правильной последовательности, т.е. вначале атрибут, затем значение?
    Вот пример изначальный "UP_RZMR","VALUE":"143*210 мм","TITLE":"Размер"},
    А это после поиск замены "UP_RZMR","TITLE":"143*210 мм","TITLE":"Размер"}
     
  20. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Не простой сайт.

    Есть несколько способов.

    1) Ссылки недоступны для гостей -> Использование параметра [INVERSEMODE]

    2) Поиск-заменой для исходного кода поменять местами имя и значение характеристики

    Shift+ctrl+r
    Код:
    {JSONDECODE}|
    [JSON]{start}{/start}{end}{/end}{container}properties{/container}|[MARKER]{res}[/MARKER]
    [MARKER]{skip}"VALUE":"{skip}"{skip}"TITLE":"{skip}"{skip}[/MARKER]|[MARKER]TITLE:{skip(4)},VALUE:{skip(2)}[/MARKER]
     
    Последнее редактирование: 28 июн 2019
    Grafin нравится это.

Поделиться этой страницей