Парсинг сайта по xml ссылке

Тема в разделе "Парсинг интернет магазинов", создана пользователем solanj, 26 ноя 2021.

  1. solanj

    solanj New Member Пользователи

    Регистрация:
    24 фев 2021
    Сообщения:
    46
    Подскажите, пожалуйста. Нужно настроить парсинг с 2-х xml фидов
    первый Ссылки недоступны для гостей при загрузке в программу вот такое
    дерево не выросло :))
    <html><head><script>function set_cookie(){var now = new Date();var time = now.getTime();time += 19360000 * 1000;now.setTime(time);document.cookie='beget=begetok'+'; expires='+now.toGMTString()+'; path=/';}set_cookie();location.reload();;</script></head><body></body></html>

    как с этим бороться?

    а второй Ссылки недоступны для гостей
    у меня не совсем получается создать повторяющиеся границы. файл прикреплю, может подскажете что ни так делаю?
     

    Вложения:

    • kaod_ru.cdp
      Размер файла:
      41,5 КБ
      Просмотров:
      1
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    1) Сайт требует наличия Cookie в запросе. Куки устанавливает браузер. Парсите этот сайт с помощью WBAppCEF
    Ссылки недоступны для гостей

    2) Задал повторяющиеся границы для примера. Файл проекта приложил.
     

    Вложения:

    • kaod_ru.cdp
      Размер файла:
      40,7 КБ
      Просмотров:
      4
    solanj нравится это.
  3. solanj

    solanj New Member Пользователи

    Регистрация:
    24 фев 2021
    Сообщения:
    46
    Спасибо, попробую WBAppCEF
    а в файле, мне кажется , у меня было правильней :)) <offers> это ж все товары, а не 1 товар ?
    у меня внутри <offer id... </offer>не получалось повторяющиеся границы задать (атрибуты, опции, фото), общий там не сложно
     
  4. solanj

    solanj New Member Пользователи

    Регистрация:
    24 фев 2021
    Сообщения:
    46
    Что-то я ни чего по WBAppCEF не понимаю :( у меня и тк, вроде хром был выбран. А что дальше делать? Я только начинаю разбираться. Пока все что вижу по ссылке для меня сложно :)
     
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Первый XML, как оказалось, парсится без WBAppCEF. Достаточно указать вот такие заголовки запроса

    Код:
    Host: www.magniflex.ru
    User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:94.0) Gecko/20100101 Firefox/94.0
    Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,*/*;q=0.8
    Accept-Language: en-US,en;q=0.5
    Connection: keep-alive
    Cookie: beget=begetok
    Upgrade-Insecure-Requests: 1
    Sec-Fetch-Dest: document
    Sec-Fetch-Mode: navigate
    Sec-Fetch-Site: none
    Sec-Fetch-User: ?1
    Pragma: no-cache
    Cache-Control: no-cache
    Проект приложил.
     

    Вложения:

  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Второй проект.
     

    Вложения:

  7. solanj

    solanj New Member Пользователи

    Регистрация:
    24 фев 2021
    Сообщения:
    46
    Добрый день. выдает вот такую ошибку.
    upload_2021-12-1_16-14-31.png

    ни чего не открывалось в редакторе и не блокировалось
     
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Перезагрузите ПК и попробуйте снова.
     
  9. solanj

    solanj New Member Пользователи

    Регистрация:
    24 фев 2021
    Сообщения:
    46
    ни как не могу понять почему у меня загружается только 1 фото и в конце при предпросмотре еще какая-то накладка идет еще одного товара. уже все перепробовала. Посмотрите, пожалуйста
     

    Вложения:

  10. solanj

    solanj New Member Пользователи

    Регистрация:
    24 фев 2021
    Сообщения:
    46
    извиняюсь. без ссылки был
     

    Вложения:

  11. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Так как парсинг основных данных производится с помощью повторяющейся границы 1, то и все данные нужно прописывать в ее шаблон.

    2021-12-01_18-14-46.png
     

    Вложения:

    solanj нравится это.
  12. solanj

    solanj New Member Пользователи

    Регистрация:
    24 фев 2021
    Сообщения:
    46
    спасибо большое. у меня че-то с этими повторяющимися границами дружба не сложилась :)) вроде все делала что тут Ссылки недоступны для гостей а все равно не прописалось в ее шаблон
     
  13. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Пожалуйста.

    Обращайтесь, постараемся помочь...
     
    solanj нравится это.
  14. solanj

    solanj New Member Пользователи

    Регистрация:
    24 фев 2021
    Сообщения:
    46
    а
    подскажите еще.. у меня, вроде отмечено "не переименовывать изображения", а они все переименовываются. где это еще изменяется?
     
  15. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Выключите эту опцию

    2021-12-01_19-39-07.png

    В окне настройки макроса DOWNLOADFILE (shift+ctrl+l).
     
    solanj нравится это.
  16. solanj

    solanj New Member Пользователи

    Регистрация:
    24 фев 2021
    Сообщения:
    46
    подскажите еще, пожалуйста. Как добавить еще обычную границу парсинга, если уже нет свободных? И где можно поменять местами границы (можно это не в шаблоне, а сразу поменять, чтобы не запутаться потом)? Например, так получилось что я колонки с фото перемешала с атрибутами, а поменять местами не пойму где.
    А еще в шаблоне вывода я вижу только повторяющуюся границу, а где находится шаблон границ внутри нее?
     

    Вложения:

    • kaod_ru.cdp
      Размер файла:
      41,5 КБ
      Просмотров:
      2
    Последнее редактирование: 6 дек 2021
  17. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    По поводу добавления границ парсинга напишите мне в Whatsap
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    Так быстрее будет.
     
    Последнее редактирование: 6 дек 2021
  18. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Заметил, что результат предпросмотра долго подгружается.

    Исправил этот момент.

     
  19. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    2021-12-06_19-50-29.png
     
  20. solanj

    solanj New Member Пользователи

    Регистрация:
    24 фев 2021
    Сообщения:
    46
    не совсем поняла где исправили. Вроде файла нет
     

Поделиться этой страницей