Сайт не парсится

Тема в разделе "Решение проблем с загрузкой WEB-страниц", создана пользователем forparsing2, 31 янв 2021.

  1. forparsing2

    forparsing2 New Member Пользователи

    Регистрация:
    31 янв 2021
    Сообщения:
    10
    Добрый день,
    Подскажите, пожалуйста, как можно решить такую проблему:
    1. Захожу на страницу сайта - вижу его содержимое (есть товар, есть описание, есть картинка, есть ссылки на скачивание документов)
    2. Открывают код сайта (например, в окне браузера) и вижу там всего несколько строк внутри тега <BODY>...</BODY>, которые явно не отражают собой то, что показывает визуально браузер.
    3. При попытке просмотреть код для задавания границ парсинга в Content Downloader X1 - аналогично кода не видно и ничего спарсить, соответственно, не получается.

    Вот ссылка на пример такой страницы: Ссылки недоступны для гостей
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Этот сайт нужно парсить с помощью WBAppCEF (с использованием движка браузера).

    Ссылки недоступны для гостей

    Проект приложил (в программе: главное меню - файл - загрузить проект).
     

    Вложения:

  3. forparsing2

    forparsing2 New Member Пользователи

    Регистрация:
    31 янв 2021
    Сообщения:
    10
    Большое спасибо!
    Теперь вижу код страницы.
    Но он, почему-то, идет, практически, в одну строку.

    upload_2021-1-31_20-39-10.png


    Можно ли как-то его сделать, как у обычных страниц - с переводом каретки?
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Так браузер рендерит данную WEB страницу.

    По F4 при задании границ парсинга все элементы в коде находятся. Никаких проблем с этим нет.
     
  5. forparsing2

    forparsing2 New Member Пользователи

    Регистрация:
    31 янв 2021
    Сообщения:
    10
    Добрый день,
    Все работает.
    Спасибо.
    Еще появился такой вопрос - не знаю, в эту ветку его или в новую:
    Выгружаю большое количество pdf файлов (это технические описания на продукцию). Выгружается по каждому артикулу с его карточки товара соответствующий pdf. Но проблема в том, что один файл pdf соответствует нескольким артикулам, то есть на разных карточках товара идут ссылки на один и тот же файл, который выкачивается и записывается под новым номером. В итоге получается, что у меня после парсинга на каждый артикул соответствует свой pdf (с уникальным именем) и огромный архив pdf.
    Можно ли как-то сделать так, чтобы при парсинге, если документ имеет тоже имя, что уже и скачанный, то он не скачивался, а в ячейку с его адресом проставлялся адрес уже скачанного документа? Тогда выкачаются только уникальные документы (будет малый объем скачанного) и будут ссылки на них в эселе по каждому артикулу.
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Постараюсь на неделе доработать.
     
  7. forparsing2

    forparsing2 New Member Пользователи

    Регистрация:
    31 янв 2021
    Сообщения:
    10
    Подскажите, пожалуйста, еще по парсингу картинок на указанном сайте.
    Всплыл такой нюанс. Картинка находится на странице:

    upload_2021-2-4_21-57-2.png

    И при парсинге через задавание границ парсинга, она скачивается именно в таком размере, как здесь.
    Но, если на нее нажать на странице, то она открывается во всплывающем окне уже в большем размере.
    Вопрос в том, как ее скачать в большем размере, так как размер отображения на странице (как показано выше) не очень крупный.

    Спасибо
     
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    На этом сайте средняя картинка от большой отличается только наличием в ней такой подстроки в URL - _medium.jpg

    То есть, удалив из адреса среднеразмерной картинки эту подстроку, будет парситься большое изображение.

    Проект приложил.
     

    Вложения:

  9. forparsing2

    forparsing2 New Member Пользователи

    Регистрация:
    31 янв 2021
    Сообщения:
    10
    Cпасибо

    А вариант замены при редактировании границы парсинга может рассматриваться?
    Например, заменить так:

    _medium.|.

    или так
    _medium.jpg|.jpg

    Но в этом варианте могут пройти мимо картинки с другими расширениями.

    UPD: проверил - вариант _medium.|. работает. Загружаются крупные картинки.
     
    Последнее редактирование: 6 фев 2021
  10. forparsing2

    forparsing2 New Member Пользователи

    Регистрация:
    31 янв 2021
    Сообщения:
    10
    Возник еще один вопрос по данному сайту.
    Часто очень страницы не загружаются с первого раза. В ручном режиме просмотра сайта в браузере нужно просто нажать обновить страницу.
    Но при парсинге такое назагружение приводит к тому, что ее содержимое не парсится.
    Правильно ли я понимаю, что чтобы увеличить количество попыток загрузить такую страницу, нужно в CTRL+h выставить число больше 2:

    upload_2021-2-6_13-36-32.png

    Причем при попытке сделать предварительный просмотр результатов парсинга (кнопка Лупа) появляется вот это окно от WBAppCEF и там "прыгает" ползунок между 2 значениями пауз (100 и 500):

    upload_2021-2-6_13-46-0.png

    Но все-равно страница не загружается. В итоге в предпросмотре CSV пустые клетки.

    Подскажите, а можно как-то указать, чтобы заполнялись CSV фразой "страница не была загружена", если происходит такая ситуация? Чтобы потом понимать. что пустые значения - это результат незагруженной страницы.
     
    Последнее редактирование: 6 фев 2021
  11. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Пожалуйста

    2021-02-06_15-07-44.png

    Тестировал при новых настройках, из 1000 документов ни одного не пропустило...
     
  12. forparsing2

    forparsing2 New Member Пользователи

    Регистрация:
    31 янв 2021
    Сообщения:
    10
    Добрый день,
    Подскажите, пожалуйста, не вышло ли еще обновление программы с этой доработкой?
     
  13. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Увы, пока не получилось.
     
  14. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Попробуйте.

    2021-02-17_07-32-10.png
     
  15. forparsing2

    forparsing2 New Member Пользователи

    Регистрация:
    31 янв 2021
    Сообщения:
    10
    Добрый день,
    Подскажите, пожалуйста - использовал приложенный во 2 сообщении проект с WBAppCEF (с использованием движка браузера).
    Сейчас потребовалось настроить парсинг на другой сайт - загружаю программу, выбираю в меню "Новый проект", но почему-то в настройках остается информация о WBAppCEF. И на загружается "чистый проект". Прикладываю скриншот.

    Например, пробовал скачать настройки для парсинга Wildberries отсюда Ссылки недоступны для гостей - загружаю вложенный в архив файл, как новый проект - но ничего не открывается, точнее открывается пустой проект с настройками WBAppCEF из скриншота, без готовой разметки для Wildberries.
     

    Вложения:

Поделиться этой страницей