При задании границ парсинга код страницы не грузиться в полном объеме

Тема в разделе "Решение различных задач по парсингу", создана пользователем Konstantine, 8 май 2018.

  1. Konstantine

    Konstantine Member Пользователи

    Регистрация:
    7 май 2018
    Сообщения:
    33
    День добрый! Весьма доволен CD, начал постигать парсинг именно с ним, но в данный момент столкнулся со транной проблеммой, которую не получается обойти. Страница грузится в окно задания границ парсинга как бы в облегченном виде. Хотел парсить комментарии и отзывы со страницы, но в окне задания границ парсинга страница грузиться без изображений в комментариях, с упрощенным оформлением, часть коментариев скрыта за кнопкой "Читать все отзывы". В браузерах(в том числе IE 11.0.9600) и даже в окне настройки WBapp страница прогружается в более оформленном и затемленном виде, с доп. графикой и изображениями в комментариях, кнопки "Читать все отзывы" нет - комемнтарии грузятся в полном объеме. Смена библиотеки по Ctrl+H не помогла. Прошу помощи с данным вопросом
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Часть кода может подгружаться скриптами. Парсите с использованием библиотеки Internet Explorer (DOM) (активируется в окне ctrl+h).
     
  3. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Также подгружаемые скриптами данные часто можно парсить таким методом Ссылки недоступны для гостей (этот метод быстрее метода использования библиотеки Internet Explorer (DOM)).
     
    napserious нравится это.
  4. Konstantine

    Konstantine Member Пользователи

    Регистрация:
    7 май 2018
    Сообщения:
    33
    Спасибо за советы, задача оказалась несколько тривиальнее. Часть сервисов сайта просто блочилась, после включения ВПН все подгрузилось. Буду использовать прокси для этой задачи
     
    Root нравится это.
  5. Konstantine

    Konstantine Member Пользователи

    Регистрация:
    7 май 2018
    Сообщения:
    33
    И в продолжение добавлю, что прокси вопросы в большинстве решили. Но есть одна область с фото, которая почему-то при задании границ парсинга в просмоторщике не отображается и в коде отсутствует напрочь, хотя в WBapp просмоторщик ее видит. Страница собирается скриптами, я выставил ожидание на прогрузку по classname, но эта проблемка не решается :(
     
  6. napserious

    napserious Well-Known Member Пользователи Активирован

    Регистрация:
    16 окт 2015
    Сообщения:
    324
    Ссылку дай-те.
     
  7. Konstantine

    Konstantine Member Пользователи

    Регистрация:
    7 май 2018
    Сообщения:
    33
    Ссылки недоступны для гостей
    Интересует именно галлерея с фотографиями домов сверху страницы. Спасибо
     
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Все картинки в коде есть:
    Код:
    ...
    \u0438","region":"\u041c\u043e\u0441\u043a\u0432\u0430 \u0438 \u041c\u043e\u0441\u043a\u043e\u0432\u0441\u043a\u0430\u044f \u043e\u0431\u043b\u0430\u0441\u0442\u044c","district":"\u041c\u043e\u0441\u043a\u0432\u0430","novostroy_category":"\u0416\u041a","realty_type":[],"direction":[],"photo":[{"img":"1022821_be5b48e499676bc2677c14ad3befe41b.jpg","label":null},{"img":"1022821_4af369a2909e012eb4740ad8d40bbc07.jpg","label":null}
    ...
    Просто к ним нужно добавлять .[w-850_h-550_strict-1_q-75], который есть в коде страницы.
    Код:
    1022821_4af369a2909e012eb4740ad8d40bbc07.jpg -> 1022821_4af369a2909e012eb4740ad8d40bbc07.[w-850_h-550_strict-1_q-75].jpg -> https://img.avaho.ru/rsz/upload/objects_photo/1022821_4af369a2909e012eb4740ad8d40bbc07.[w-850_h-550_strict-1_q-75].jpg
     
    napserious нравится это.
  9. Konstantine

    Konstantine Member Пользователи

    Регистрация:
    7 май 2018
    Сообщения:
    33
    Спасибо за подсказку! Перавый раз такое встречаю, пришлось использовать громоздкую конструкцию для загрузки фото
    [DFN][CLEAR][TRANSLITE]gallery/<CD_GRAN_1!>/<CD_GRAN_1!>[/DFN]<DOWNLOADFILE>Ссылки недоступны для гостей
     

Поделиться этой страницей