Ошибка кодировки при парсинге карты сайта

co11usor · 11 фев 2023

Пытаюсь настроить парсер на парсинг Ссылки недоступны для гостей, в названии страниц есть символы на иврите. При парсинге карты сайта и запуске сканера сайта, yа выходе получаю, ссылки с кракозябрами на латинице вместо иврита и соответственно данные ссылки не открываются ( Ранее уже парсил несколько сайта на иврите и аналогичных проблем не было.

Root · 11 фев 2023

Здравствуйте.

Root · 11 фев 2023

В инструменте парсинга карты сайта пока только авто режим определения кодировки (не было нужды еще).

При работе с картой тут походу пока никак.

Сканер будет работать корректно, если установить кодировку, как показано на скриншоте выше.

co11usor · 11 фев 2023

Root сказал(а): ↑

В инструменте парсинга карты сайта пока только авто режим определения кодировки (не было нужды еще).

При работе с картой тут походу пока никак.

Сканер будет работать корректно, если установить кодировку, как показано на скриншоте выше.
Нажмите, чтобы раскрыть...

Спасибо, сам честно ранее только русскоязычные сайты собирал и даже не знал, что столько проблем может быть из-за языка и кодировок.

co11usor · 11 фев 2023

Честно говоря не очень помогло, настроил парсер на обход категорий и ссылки на товары собираются только 1 страницы.
Далее робот обходит остальные страницы, но не находит ссылки на товары.
Сначала подумал, что сайт меня блокируют, прокся не помогла =(
Заметил, если копировать ссылку из очереди и вставить ее в браузере, то пишет, что сайт не доступен.
При этом если лазить по сайту и выбирать категории, то работает нормально.

Собрал в итоге ссылки через питон и вставил их на страницу контент, ссылки начали открываться и можно настраивать поля.
Но решение оказалось максимально, не прозрачным.

co11usor · 11 фев 2023

У меня уже отчаяние с этим сайтом =(
Нашел в коде сайта тег с кодировкой: <meta http-equiv="Content-Type" content="text/html; charset=windows-1255" />, при задании границ парсинга, нашел поле отвечающие за кодировку:

Соответственно выбираю custom, при использование indy или win, кракозябры уходят. Но у меня не получается настроить поля для всех страниц, когда включаю Chromium, то кодировка перестает работать, но теги нормально прогружаются.

Root · 11 фев 2023

co11usor · 12 фев 2023

Root сказал(а): ↑

Посмотреть вложение 11062
Нажмите, чтобы раскрыть...

Спасибо, помогло. Не понимаю принципа работы, UTF-8 это супер универсальная кодировка или это особенность парсера? Я просто думал, что utf-8 это кириллица.

Root · 13 фев 2023

WBAppCEF просто всегда сохраняет в UTF-8.

Остальные компоненты (CIS, WIN) сохраняют в том виде, в котором пришло от сайта.

UTF-8 можно назвать универсальной, так как поддерживает все известные мне международные символы.

Войти или зарегистрироваться

Ошибка кодировки при парсинге карты сайта

co11usor Member Пользователи

Вложения:

mobile-plus_co_il.cdp

Root Администратор Администратор

Root Администратор Администратор

co11usor Member Пользователи

co11usor Member Пользователи

co11usor Member Пользователи

Вложения:

upload_2023-2-11_20-16-0.png

mobile-plus_co_il.cdp

Root Администратор Администратор

co11usor Member Пользователи

Root Администратор Администратор

Загрузка ссылок из XML карты сайта.

Вопрос: Загрузка ссылок сайта из XML-карты Карт сайта

Создание карты сайта

Сбор карты сайта .xml.gz

403 ошибка при парсинге сайта Autocompas ru

Поделиться этой страницей

Ошибка кодировки при парсинге карты сайта

co11usor Member Пользователи

Вложения:

Root Администратор Администратор

Root Администратор Администратор

co11usor Member Пользователи

co11usor Member Пользователи

co11usor Member Пользователи

Вложения:

Root Администратор Администратор

co11usor Member Пользователи

Root Администратор Администратор

Поделиться этой страницей

Быстрый поиск