Некоторые символы сохраняются, как знаки вопросов

Тема в разделе "Сохранение результата парсинга контента", создана пользователем ap2205, 20 сен 2020.

Статус темы:
Закрыта.
  1. ap2205

    ap2205 Member Пользователи

    Регистрация:
    30 мар 2018
    Сообщения:
    87
    Город:
    Москва
    Здравствуйте, скажите пожалуйста, почему при парсинге характеристик в значениях вместо "x" появляются "?"?
    Скрин прилагаю...
    upload_2020-9-20_22-43-25.png
    Пробовал парсить с разной кодировкой ANSI, UTF-8, UTF-8 без BOOM. При настройках UTF-8, UTF-8 без BOOM вообще все в непонятных символах. А при ANSI появляются знаки вопроса.
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Потому, что вы не приложили файл проекта и предлагаете мне заниматься гаданием.
     
  3. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.435
    Адрес:
    Latvia
    При указании границ, найдите этот знак и выделите, правый клик и выберите "поиск-замена ..." где надо в глобальной поиск-замена указать на какой хотите заменить.
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Скорее всего это символы UTF8.

    Либо сделайте, как предложил Kagorec (удалите их).

    Либо измените кодировку сохраняемого файла на UTF8

    2020-09-21_09-06-44.png

    .
     
  5. ap2205

    ap2205 Member Пользователи

    Регистрация:
    30 мар 2018
    Сообщения:
    87
    Город:
    Москва
    Добрый день, Сергей.
    Сайт который парсю имеет кодировку UTF8. При указании в настройках программы кодировки UTF8, UTF-8 без BOOM получаю в файле непонятные символы.
    upload_2020-9-21_10-55-41.png
    При установки кодировки ANSI некоторые символы заменяются "?". Есть ли еще какой вариант настройки, чтобы избавиться от данного символа?
    Вариант от Kagorec не совсем подходит, так как знак "?" присутствует в разных вариациях и избавление от него путем функции поиск-замена может привести к другим проблемам в прайсе. Где-то идет замена "х", где-то заменяется пробел на "?", где-то в начале названия характеристики.
    upload_2020-9-21_11-9-21.png
    upload_2020-9-21_11-12-2.png
    upload_2020-9-21_11-14-17.png
    Помогите, пожалуйста разобраться. Проект прилагаю.
     

    Вложения:

  6. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.435
    Адрес:
    Latvia
    У вас в проекте используется макрос подключающий локальный CSV для обработки данных, но его не приложили. Рекомендую на основе того что есть.
    Проверьте кодировку документа.
    Скорее всего, при указании сохраняемого контента в UTF-8 то и документ подключаемый тоже должен быть в UTF-8.
    п.с. добавил замену табов на пробел и х|x
     

    Вложения:

  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Решение написал выше.

    Откройте CSV во встроенном редакторе CSV (в Content Downloader) или в блокноте, или в другом редакторе, все там должно быть ok со всеми символами.

    Это вопрос к разработчикам Excel, почему их редактор не может нормально открыть файл в UTF8.
     
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Вот как парсить в файлы и открывать их с помощью MS Excel 2007 SP3

    Настройки кодировок при парсинге в Content Downloader

    2020-09-21_13-04-35.png

    При открытии CSV в MS Excel 2007 SP3

    2020-09-21_13-05-00.png

    2020-09-21_13-05-25.png

    2020-09-21_13-05-48.png
     

    Вложения:

    kagorec нравится это.
  9. ap2205

    ap2205 Member Пользователи

    Регистрация:
    30 мар 2018
    Сообщения:
    87
    Город:
    Москва
    Сергей, сделал ваши настройки в экселе. Возникла такая проблема.
    После указания в мастере текстов разделителя ячеек точка с запятой, указанием кодировки в прайсе (файле) сдвигаются некоторые строки. Заметил начинается с описания - часть описания начинается с новой строки. Не смог найти причину. Пробовал парсить без тегов - все равно после выставления кодировки и разделителя в файле некоторые строки начинаются с новой строки. Показал на скрине и сам файл прилагаю.
    upload_2020-9-21_18-39-44.png
    Что касается знаков вопросов в характеристиках , то они исчезли, все хорошо... Но заметил, что во всем прайсе в поиске находится "?", хотя визуально его нет.
    upload_2020-9-21_18-43-20.png
    Сделал замену знака вопроса на ничего - заменилось все. Знак вопроса практически в каждой строке, но он невидим.
     

    Вложения:

  10. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    2020-09-21_22-23-42.png

    Выкиньте этот Excel, не грейте людям голову, открывайте через нормальный редактор CSV.
     
Статус темы:
Закрыта.

Поделиться этой страницей