Ошибка кодировки при парсинге карты сайта

Тема в разделе "Решение различных задач по парсингу", создана пользователем co11usor, 11 фев 2023.

  1. co11usor

    co11usor Member Пользователи

    Регистрация:
    17 фев 2017
    Сообщения:
    46
    Пытаюсь настроить парсер на парсинг Ссылки недоступны для гостей, в названии страниц есть символы на иврите. При парсинге карты сайта и запуске сканера сайта, yа выходе получаю, ссылки с кракозябрами на латинице вместо иврита и соответственно данные ссылки не открываются ( Ранее уже парсил несколько сайта на иврите и аналогичных проблем не было.
     

    Вложения:

  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    2023-02-11_16-00-26.png
     
    co11usor нравится это.
  3. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    В инструменте парсинга карты сайта пока только авто режим определения кодировки (не было нужды еще).

    При работе с картой тут походу пока никак.

    Сканер будет работать корректно, если установить кодировку, как показано на скриншоте выше.
     
    co11usor нравится это.
  4. co11usor

    co11usor Member Пользователи

    Регистрация:
    17 фев 2017
    Сообщения:
    46
    Спасибо, сам честно ранее только русскоязычные сайты собирал и даже не знал, что столько проблем может быть из-за языка и кодировок.
     
  5. co11usor

    co11usor Member Пользователи

    Регистрация:
    17 фев 2017
    Сообщения:
    46
    Честно говоря не очень помогло, настроил парсер на обход категорий и ссылки на товары собираются только 1 страницы.
    Далее робот обходит остальные страницы, но не находит ссылки на товары.
    Сначала подумал, что сайт меня блокируют, прокся не помогла =(
    Заметил, если копировать ссылку из очереди и вставить ее в браузере, то пишет, что сайт не доступен.
    При этом если лазить по сайту и выбирать категории, то работает нормально.

    Собрал в итоге ссылки через питон и вставил их на страницу контент, ссылки начали открываться и можно настраивать поля.
    Но решение оказалось максимально, не прозрачным.
     
  6. co11usor

    co11usor Member Пользователи

    Регистрация:
    17 фев 2017
    Сообщения:
    46
    У меня уже отчаяние с этим сайтом =(
    Нашел в коде сайта тег с кодировкой: <meta http-equiv="Content-Type" content="text/html; charset=windows-1255" />, при задании границ парсинга, нашел поле отвечающие за кодировку:
    upload_2023-2-11_20-16-25.png
    Соответственно выбираю custom, при использование indy или win, кракозябры уходят. Но у меня не получается настроить поля для всех страниц, когда включаю Chromium, то кодировка перестает работать, но теги нормально прогружаются.
     

    Вложения:

  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
  8. co11usor

    co11usor Member Пользователи

    Регистрация:
    17 фев 2017
    Сообщения:
    46
    Спасибо, помогло. Не понимаю принципа работы, UTF-8 это супер универсальная кодировка или это особенность парсера? Я просто думал, что utf-8 это кириллица.
     
  9. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    WBAppCEF просто всегда сохраняет в UTF-8.

    Остальные компоненты (CIS, WIN) сохраняют в том виде, в котором пришло от сайта.

    UTF-8 можно назвать универсальной, так как поддерживает все известные мне международные символы.
     
    co11usor нравится это.

Поделиться этой страницей