Как парсить контент, подгружаемый скриптами

One_is_All · 21 дек 2018

Подгруздка контента происходит, только после загрузки скрипта.
Когда пробую загрузить главную страницу, то выводится:

Скрытое содержимое:

**Скрытое содержимое: доступно при наличии 1 постов.**

Хорошо, поступил умнее, вытащил через http заголовок путь, который отображает контент:

Скрытое содержимое:

**Скрытое содержимое: доступно при наличии 1 постов.**

К счастью, облегчило сбор ссылок, без мусора)

1) но подскажите пожалуйста, как автоматизировать, загрузку всех страниц, не нажимая до полного отображения [Показать еще Н кол-во страниц из Н кол-во], то есть, я руками постоянно нажимаю, на кнопку, чтобы загрузить все скрытые блоки, чтоб потом скопировать все ссылки на странице.
2) После того, как я собрал все ссылки, получается что перейдя по ссылке на товар, там есть "позиция по объему", которую мне нужно спарсить, но парсер не может пройти дальше, чтобы вытащить мне кусок, так как контент загружается после скрипта.

Как быть в этом случае?

Root · 21 дек 2018

Ссылки недоступны для гостей (сейчас лучше использовать встроенный инструмент Firefox для мониторинга сети shift+ctrl+e).

Root · 22 дек 2018

Посмотрел запросы отправляемые этим сайтом.

На этом сайте для подгрузки данных по объему нужно пользоваться имитацией кликов в Ссылки недоступны для гостей

One_is_All · 22 дек 2018

Root сказал(а): ↑

Посмотрел запросы отправляемые этим сайтом. На этом сайте для подгрузки данных по объему нужно пользоваться имитацией кликов в WBApp
Нажмите, чтобы раскрыть...

Именно, его и начал изучать "WBApp", понемногу начинаю разбираться с софтом в целом, огромное количество функций, гибкие возможности. Особенно с "WBApp". Были проблемы с парсингом через функцию [ALTERNATE], возможно из-за большого размера данных, но нашел другую функцию [поиск и замена], что оказалась еще удобнее.

Очень доволен софтом, Вашей оперативной поддержкой! Попробую самостоятельно добить этот оставшийся вопрос и опубликовать готовое решение.

One_is_All · 23 дек 2018

Не все конечно так просто, но попробую более детально описать, в чем трудность.

1) Открыл станицу через WBApp, читается код html, вместо неразборчивого кода [hide №1]
2) На страницах "карточка товара", разный объем, где 30, 50, 80, 90мл и т.д. есть и картинка + у всего одинаковый код, нет за что, зацепиться, если только не сам [объем мл].

Скрытое содержимое:

**Скрытое содержимое: доступно при наличии 1 постов.**

3) Одинаковый html код цены в каждой позиции.

Скрытое содержимое:

**Скрытое содержимое: доступно при наличии 1 постов.**

4) И вот тут то и выручает WBApp, через offsetleft, offsetwidth, offsetheheight

Скрытое содержимое:

**Скрытое содержимое: доступно при наличии 5 постов.**

Подскажите, вот выбрал позицию 40мл, кликнул, она стала активной, появились цены, выбрал "полную цену" или "со скидкой", вопрос: Возможноли, копировать эти данные, чтобы вывести в content downloader? Так же не увидел изменения в смете активности позиции, при запуске не переключалась.

Вообще, конечно за раз можно столько не делать телодвижений на странице, да и получится как (название; объем №1 = цена old, цена sale; объем №2 = цена old, цена sale; объем №3 = цена old, цена sale), думаю проще было бы 1 страницу 3 раза обрабатывать, чтобы в CSV была табличная структура:

название; объем №1 = цена old, цена sale;
название; объем №2 = цена old, цена sale;
название; объем №3 = цена old, цена sale;

Если быть честным, поковырявшись в кишках этого сайта, уже не знаю, возможности ли с него собрать куски

Root · 23 дек 2018

Целая научная диссертация.

Как я понял, вот вопрос:

Подскажите, вот выбрал позицию 40мл, кликнул, она стала активной, появились цены, выбрал "полную цену" или "со скидкой", вопрос: Возможноли, копировать эти данные, чтобы вывести в content downloader? Так же не увидел изменения в смете активности позиции, при запуске не переключалась.
Нажмите, чтобы раскрыть...

Используйте событие [GEHTML]

[GETHTML] — добавит текущий код страницы к результату парсинга. Если вызывать этот макрос несколько раз, например, в цикле, то, каждый раз, к результату будет добавляться текущий код web-страницы (на момент срабатывания макроса [GETHTML]). Его полезно применять в случае парсинга, например, нескольких страниц выдачи поисковика (чтобы при перелистывании на следующую страницу, результат парсинга не заменялся, а к нему добавлялся код следующей страницы выдачи).
Нажмите, чтобы раскрыть...

One_is_All · 29 дек 2018

Не смог разобраться с [GETHTML], но Получается что, когда настраиванию WBAPP, а в Content_Downloader делаю вывод обыч. гр. парс: 1-4, то результат одного элемента выводится, но мне нужно делать 3 клика (3 элемента, которые выводятся после клика на одной странице), а между ними делать парсинг областей, которые отобразились после каждого клика на вкладку.

Настройка в Content_Downloader

Скрытое содержимое:

**Скрытое содержимое: доступно при наличии 1 постов.**

Настройка в WBAPP

Скрытое содержимое:

**Скрытое содержимое: доступно при наличии 1 постов.**

// если так, то она выдает данные с 1 вкладки

Как правильно понимаю. Чтобы вынимать данные с каждым кликом из одного документа, нужно 3 раза проделать настройку WBAPP?

Скрытое содержимое:

**Скрытое содержимое: доступно при наличии 1 постов.**

но настройка в Content_Downloader, присылает пустые результаты

Скрытое содержимое:

**Скрытое содержимое: доступно при наличии 1 постов.**

Скрытое содержимое:

**Скрытое содержимое: доступно при наличии 1 постов.**

Root · 29 дек 2018

Меня расстраивает, что люди по описанию не могут понять, как работает [GETHTML].

В момент срабатывания [GETHTML] в результат работы WBApp попадает текущий (на момент срабатывания) код WEB-документа.

Если в одном проекте WBApp, например, в цикле, несколько раз сработает [GETHTML], то в результате работы WBApp будет содержаться сумма кодов WEB-документа (в разные моменты времени, в моменты срабатывания [GETHTML]).

One_is_All · 1 янв 2019

Root сказал(а): ↑

... в продолжение, его выполнение функций понятны, не понимается, как конструировать данный тег в настройке -ДаблЮБиАп.
Нажмите, чтобы раскрыть...

Интересно тем, что 3 варианта, которые нужно учитывать 1) есть кнопки для переключения вкладок (где отображаются цены), 2) есть картинка (заместо кнопки), 3) нет вообще переключателя (а только цена). Поиск/Замена, понятно. Далее настройка если клик состоялся, то.. если нет, то..

[GETHTML] - без :настройки{get}|выдает весь текущий веб-документ{get}, с которым потом можно работать для определенных или динамич. частичных областей?
[CLICK][classname][N]0[/N][FULL]roduct-main-info-volume__list-item active
[GETHTML]
[CDDATA:1]>h1<[/CDDATA][CDDATA:2]<h2>[GETHTML]:{get}|{get}[/CDDATA][CDDATA:3]>price<[/CDDATA][CDDATA:4]
>sale<[/CDDATA]
[GETHTML]
[WAIT]:200
[/IFNOTCLICKED][INT1]

и если ок (прошел), то нужно проделать это еще 1 раз или вернуться для обработки следующей кнопки.

чтоб на вид воспринималась, За место, стоит:
>h1< - GRAN_1!
>h2< - GRAN_2!
>price< - GRAN_3!
>sale< - GRAN_4!
[GETHTML]:{get}|{get} - точный мегапиксель страницы из (2-5 символов).

sitedn · 3 мар 2019

Не пойму зачем так все усложнять. Ищем кусок кода начинается так

Скрытое содержимое:

**Скрытое содержимое: доступно при наличии 1 постов.**

ищем ту часть где нужные нам цены

Скрытое содержимое:

**Скрытое содержимое: доступно при наличии 1 постов.**

Фильтруем данные и собираем товарные карточки либо отдельными товарами

например 1 товар

Скрытое содержимое:

**Скрытое содержимое: доступно при наличии 1 постов.**

второй товар

Скрытое содержимое:

**Скрытое содержимое: доступно при наличии 1 постов.**

тут есть и отдельные артикулы и обьем или название цвета и цена во всех вариациях (скидки, бонусные карты и т.д.)

One_is_All · 3 мар 2019

sitedn сказал(а): ↑

Не пойму зачем так все усложнять. Ищем кусок кода начинается так
*Скрытый_текст*
ищем ту часть где нужные нам цены
*Скрытый_текст*
Фильтруем данные и собираем товарные карточки либо отдельными товарами

например 1 товар
*Скрытый_текст*

второй товар
*Скрытый_текст*

тут есть и отдельные артикулы и обьем или название цвета и цена во всех вариациях (скидки, бонусные карты и т.д.)
Нажмите, чтобы раскрыть...

Идея очень хорошая (как говориться, все гениальное просто), не посмотрел полноценно на абракадабру, не думал, что в нем, что-то есть ценное, но эврика!

Скрытое содержимое:

**Скрытое содержимое: доступно при наличии 3 постов.**

Styud · 11 ноя 2020

Ссылки недоступны для гостей
хочу спарсить все ссылки на новости . выводятся они при прокрутке вниз странички. можете помочь?

п.с.
вроде получилось.
взял через лису пост запрос
Ссылки недоступны для гостей

и заголовки запроса.

в настройках указал заголовки
нашел 96 результатов на сейчас . можете проверить? у вас также получается? все лив ерно?

п.с.
нет не получается(
при парсинге в ксв выдало 15 ссылок
и больше такое не получается. и ссылок больше там. вручную пролистал... не до конца но явно больше новостей.

все таки нужна помощь как парсить информацию когда надо пролистать вниз и контент погрузится. в справке не нашел . заметил еще что если видимое окно браузера меньше половины экрана то информация не подгружается. возможно это тоже важно.

п.с.
попробовал с помощью php

<PHP_SCRIPT=Ссылки недоступны для гостей
<HEADERS></HEADERS>
<REPLACE></REPLACE>
mode=ajax
next=true
</PHP_SCRIPT>

пробовал туда зоголовк вставлять

не получилось(

Root · 11 ноя 2020

Styud сказал(а): ↑

Ссылки недоступны для гостей
хочу спарсить все ссылки на новости . выводятся они при прокрутке вниз странички. можете помочь?

п.с.
вроде получилось.
взял через лису пост запрос
Ссылки недоступны для гостей

и заголовки запроса.

в настройках указал заголовки
нашел 96 результатов на сейчас . можете проверить? у вас также получается? все лив ерно?

п.с.
нет не получается(
при парсинге в ксв выдало 15 ссылок
и больше такое не получается. и ссылок больше там. вручную пролистал... не до конца но явно больше новостей.

все таки нужна помощь как парсить информацию когда надо пролистать вниз и контент погрузится. в справке не нашел . заметил еще что если видимое окно браузера меньше половины экрана то информация не подгружается. возможно это тоже важно.

п.с.
попробовал с помощью php

<PHP_SCRIPT=Ссылки недоступны для гостей
<HEADERS></HEADERS>
<REPLACE></REPLACE>
mode=ajax
next=true
</PHP_SCRIPT>

пробовал туда зоголовк вставлять

не получилось(
Нажмите, чтобы раскрыть...

Здравствуйте.

Так как в запросе не видно номера страницы выдачи, лучше парсить рубрики данного сайта с помощью WBAppCEF.

Приложил настроенный проект для сбора ссылок.

Styud · 11 ноя 2020

попробовал еще через скролинг...
но чет вылетает
немогу понять почему.

п.с.
простите не разобрался что файл прикреплен и налепил уйму. это один и тот же файл

Styud · 11 ноя 2020

Root сказал(а): ↑

Здравствуйте.

Так как в запросе не видно номера страницы выдачи, лучше парсить рубрики данного сайта с помощью WBAppCEF.

Приложил настроенный проект для сбора ссылок.
Нажмите, чтобы раскрыть...

незаметил. сейчас посмотрю ваш пример

Styud · 11 ноя 2020

Root сказал(а): ↑

Здравствуйте.

Так как в запросе не видно номера страницы выдачи, лучше парсить рубрики данного сайта с помощью WBAppCEF.

Приложил настроенный проект для сбора ссылок.
Нажмите, чтобы раскрыть...

а можете пояснить по функциям ? или сделать видеоурок чтобы понять как парсить такие сайты?

п.с.

у меня логика (по файлу в пред комменте) была след
скролить страницу
в коде забирать данные (дата, тема, описание, тег) как видите я пытался настроить через контент,
потом в екселе получить табличку и отсортировать нужные мне новости.
и по ссылкам загрузить то что мне нужно

а у вас парсинг ссылок.
кстати запустил 1644 элемента. пояснение вашего кода не помешало бы. есть ли там условие чтобы убедиться что все ссылки были взяты?
после ссылки надо будет загрузить на парсинг контента и забрать заголовки даты...
а нельзя ли сразу так сделать?

п.с. и еще вопрос.
можно ли настроить так чтобы в след раз парсил до новости с определенной даты? чтобы снова все не парсить.

Root · 11 ноя 2020

а можете пояснить по функциям ? или сделать видеоурок чтобы понять как парсить такие сайты?
Нажмите, чтобы раскрыть...

кстати запустил 1644 элемента. пояснение вашего кода не помешало бы. есть ли там условие чтобы убедиться что все ссылки были взяты?
Нажмите, чтобы раскрыть...

Скролить должен до тех пор, пока подгружаются новые элементы выдачи.

после ссылки надо будет загрузить на парсинг контента и забрать заголовки даты...
а нельзя ли сразу так сделать?
Нажмите, чтобы раскрыть...

Можно, если парсить во вкладке "Контент".

можно ли настроить так чтобы в след раз парсил до новости с определенной даты? чтобы снова все не парсить.
Нажмите, чтобы раскрыть...

Нужно сделать новую функцию для этого, пока со временем ее реализации сориентировать не могу.

Войти или зарегистрироваться

Как парсить контент, подгружаемый скриптами

One_is_All Member Пользователи

Root Администратор Администратор

Root Администратор Администратор

One_is_All Member Пользователи

One_is_All Member Пользователи

Root Администратор Администратор

One_is_All Member Пользователи

Root Администратор Администратор

One_is_All Member Пользователи

sitedn New Member Пользователи

One_is_All Member Пользователи

Styud New Member Пользователи

Root Администратор Администратор

Вложения:

мойбизнес_рф.cdp

Styud New Member Пользователи

Вложения:

мойбизнес.cdp

Styud New Member Пользователи

Styud New Member Пользователи

Вложения:

2020-11-11_10-49-05.png

Root Администратор Администратор

Как парсить контент по ключевым словам

Программа не видит контент подгружаемый ajax

Динамически подгружаемый контент

Хитрая подгрузка данных

Авто подгружаемый контент

Поделиться этой страницей

Как парсить контент, подгружаемый скриптами

One_is_All Member Пользователи

Root Администратор Администратор

Root Администратор Администратор

One_is_All Member Пользователи

One_is_All Member Пользователи

Root Администратор Администратор

One_is_All Member Пользователи

Root Администратор Администратор

One_is_All Member Пользователи

sitedn New Member Пользователи

One_is_All Member Пользователи

Styud New Member Пользователи

Root Администратор Администратор

Вложения:

Styud New Member Пользователи

Вложения:

Styud New Member Пользователи

Styud New Member Пользователи

Вложения:

Root Администратор Администратор

Поделиться этой страницей

Быстрый поиск