Кракозябры вместо букв при обработке и импорте контента

Тема в разделе "Решение различных задач по парсингу", создана пользователем rdw, 17 июл 2018.

  1. rdw

    rdw New Member Пользователи

    Регистрация:
    31 май 2017
    Сообщения:
    42
    Здравствуйте.
    Я спарсил сайт в htm файлы с кодировкой UTF-8. Но при включении функции "обработка и импорт контента в CMS" и добавлении туда файлов программа почему-то показывает кракозябры вместо букв НЕлатинского алфавита или букв типа è, ä в немецком или испанском языках. Вот скриншоты из программы Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! , Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! . Соответственно когда создаётся xml файл импорта большинство текстов получаются с кракозябрами. И, к тому же, почему-то в начале каждой страницы появляются знаки: п»ї
    В самих htm файлах с буквами всё в порядке. Приложил их к тексту
    В чем может быть проблема?
     

    Вложения:

    • article.rar
      Размер файла:
      1,6 КБ
      Просмотров:
      4
  2. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    293
    Установлена не правильная кодировка при передачи запроса в БД
    Как вариант посмотрите Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
     
  3. rdw

    rdw New Member Пользователи

    Регистрация:
    31 май 2017
    Сообщения:
    42
    По ссылке описано решение если кракозябры появляются в mysql. У меня же они появляются в Content downloader'е как я показал на скринах. Уже потом всё это"добро" записывается самой программой в файл импорта.
     
  4. rdw

    rdw New Member Пользователи

    Регистрация:
    31 май 2017
    Сообщения:
    42
    Ребята, помогите пожалуйста. Я так и не разобрался как исправить проблему.
     
  5. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    3.245
  6. rdw

    rdw New Member Пользователи

    Регистрация:
    31 май 2017
    Сообщения:
    42
    То есть мне придётся весь сайт перепарсить? Там больше миллиона страниц. А в самой программе ничего поправить нельзя чтобы такой беды не было в дальнейшем?
     
  7. napserious

    napserious Well-Known Member Пользователи Активирован

    Регистрация:
    16 окт 2015
    Сообщения:
    314
    Вы когда проект настраивали не увидели что вам показывает кракозябры?)
    Нужно заранее ставить тип контента UTF8 и при записи вы БД тоже указывать UTF8, и саму базу держать в UTF8.
     
  8. rdw

    rdw New Member Пользователи

    Регистрация:
    31 май 2017
    Сообщения:
    42
    У меня и так всё в UTF8 стоит. Кракозябры сразу не заметил, потому, что он далеко не везде вылазят, а вручную тысячи документов проверять - не реально имхо.
     
  9. napserious

    napserious Well-Known Member Пользователи Активирован

    Регистрация:
    16 окт 2015
    Сообщения:
    314
    Приложи два три файла.
    С русскими и иностранными.
     
  10. rdw

    rdw New Member Пользователи

    Регистрация:
    31 май 2017
    Сообщения:
    42
    В первом сообщении прикрепил с испанским языком и японским. Также в первом сообщении скрины показал, как у меня это выглядит.
     
  11. rdw

    rdw New Member Пользователи

    Регистрация:
    31 май 2017
    Сообщения:
    42
    Так как решение не найдено, то у меня не остаётся выбора, попробую сайт перепарсить и импортировать в CSV. Скажите как мне запланировать постинг постов на период там в CSV файле?
     
  12. napserious

    napserious Well-Known Member Пользователи Активирован

    Регистрация:
    16 окт 2015
    Сообщения:
    314
    upload_2018-7-25_20-47-8.png

    Собственно у меня все хорошо отображается, оба файла что вы прикрепили.
     
  13. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    3.245
    Печалька именно во встроенном редакторе файлов (некий аналог Zebroid) внутри CD, скорее всего в нем не распознаются умляуты и редкие отступы.
     
    napserious нравится это.
  14. napserious

    napserious Well-Known Member Пользователи Активирован

    Регистрация:
    16 окт 2015
    Сообщения:
    314
    Был бы CD open-source. :confused:
    Можно было бы экспериментировать и делать изменения.
    А далее скидывать готовый код(добавленный) root-у если он ему понравится.
     
  15. rdw

    rdw New Member Пользователи

    Регистрация:
    31 май 2017
    Сообщения:
    42
    Как я и писал, сами htm файлы нормально отображаются, проблема возникает в инструменте "Обработка и импорт в CMS", который их обрабатывает, вот Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! как у меня это выглядит внутри CD.
    Кстати пару месяцев назад я парсил японский сайт и всё было нормально, иероглифы отображались нормально. Может после последних обновлений что-то изменилось?
     
  16. napserious

    napserious Well-Known Member Пользователи Активирован

    Регистрация:
    16 окт 2015
    Сообщения:
    314
    Впринципе если в браузере они видны нормально, их можно в таком формате записать в базу данных.
     
  17. rdw

    rdw New Member Пользователи

    Регистрация:
    31 май 2017
    Сообщения:
    42
    А как, можете подсказать? У меня под миллион этих htm файлов.
     
  18. rdw

    rdw New Member Пользователи

    Регистрация:
    31 май 2017
    Сообщения:
    42
    Кстати заметил еще проблему, может она является причиной. Когда я открываю инструмент "обработка и импорт контента в CMS", то выскакивает окошко "Out of memory" Вот так выглядит: Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! Как от этого избавиться?
     
  19. napserious

    napserious Well-Known Member Пользователи Активирован

    Регистрация:
    16 окт 2015
    Сообщения:
    314
    Судя по интерфейсу вы еще на Win7?
    Может и вправду out of memory :]
     
  20. rdw

    rdw New Member Пользователи

    Регистрация:
    31 май 2017
    Сообщения:
    42
    А при чём тут WIn7, железо у меня вполне хорошее, тем более это сообщение буквально недавно стало выскакивать. Я проверял, ОЗУ CD не нагружает особо. Так что я не понимаю, что является причиной этого out of memory. Мб кто-нибудь уже с этим сталкивался?
     

Поделиться этой страницей