Как задать повторяющиеся границы парсинга в заскриптованном сайте?

Тема в разделе "Повторяющиеся границы парсинга", создана пользователем Alexandrkv, 27 июн 2022.

  1. Alexandrkv

    Alexandrkv New Member Пользователи

    Регистрация:
    11 авг 2020
    Сообщения:
    17
    Город:
    Брянск
    Сайт недавно обновился. Представляет собой скрипты. Не получается теперь спарсить характеристики и изображения в данных условиях.

    Пробовал вариант парсинга с движком WBApp CEF. Но не знаю, как задать повторяющиеся границы.
    Просьба помочь или дать совет.
     

    Вложения:

  2. masrub

    masrub Well-Known Member Пользователи

    Регистрация:
    29 июн 2018
    Сообщения:
    194
    Самое простое решение, скачайте локально html для нужного товара с помощью WBApp2 Ссылки недоступны для гостей , включите в настройках скрипты и парсите вдоль и поперек.
     
    Alexandrkv нравится это.
  3. Alexandrkv

    Alexandrkv New Member Пользователи

    Регистрация:
    11 авг 2020
    Сообщения:
    17
    Город:
    Брянск
    А если таких товаров много?
     
  4. Alexandrkv

    Alexandrkv New Member Пользователи

    Регистрация:
    11 авг 2020
    Сообщения:
    17
    Город:
    Брянск
    Нужны еще предложения. Неужели нельзя никак задать повторяющиеся границы?
     
  5. masrub

    masrub Well-Known Member Пользователи

    Регистрация:
    29 июн 2018
    Сообщения:
    194
    А какая разница сколько их? Все будет упираться в блокировку от сайта, для того что бы ее не было, нужно играться с настройками времени/потоков или использовать прокси.
    Можно, вариантов решений всегда бывает много. Я скачал ваш проект, посмотрел что без загрузки через WBApp CEF данные нужные не появляются, нужно разбираться со скриптами, но зачем? Если можно скачать html товаров на пк, и распарсить его за короткое время.
     
    Alexandrkv нравится это.
  6. Alexandrkv

    Alexandrkv New Member Пользователи

    Регистрация:
    11 авг 2020
    Сообщения:
    17
    Город:
    Брянск
    Хорошо, спасибо. Попробую ваш вариант. Но если от других участников форума будут другие предложения, то с радостью их также попробую. Рад любой помощи.
     
  7. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    867
    На сайте защита от Claudflare - любое агрессивное поведение - карается баном
    Как вариант парсить с использованием wbapp
     
  8. Alexandrkv

    Alexandrkv New Member Пользователи

    Регистрация:
    11 авг 2020
    Сообщения:
    17
    Город:
    Брянск
    Спасибо огромное. Вы мне очень помогли. Сделал по вашему совету. Действительно, простое и эффективное решение. Еще раз благодарю.
     
  9. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    Пробовали через встроенный Wbapp в актуальной версии CD?
     
  10. Alexandrkv

    Alexandrkv New Member Пользователи

    Регистрация:
    11 авг 2020
    Сообщения:
    17
    Город:
    Брянск
    Сначала да. Но не вышло задать повторяющиеся границы для картинок и характеристик. Поэтому скачал Wbapp2 с вашего сайта (по совету выше). Распарсил исходную ссылку (со скриптами), немного подправил границы у себя в текущем проекте и все получилось.
     

Поделиться этой страницей