Кодировка при предпросмотре сайта и при парсинге

Тема в разделе "Разное", создана пользователем DimasPeaceKashirin, 22 фев 2017.

Метки:
  1. DimasPeaceKashirin

    DimasPeaceKashirin New Member Пользователи

    Регистрация:
    22 фев 2017
    Сообщения:
    3
    Добрый вечер!
    Столкнулся с проблемой кодировки еще при установке программы. Вместо кириллицы программа выдала набор символов. Ну да ладно, установил и слава Богу.

    Сейчас же возникает проблема с кодировкой кирилицы при предпросмотре страницы, так и при задании границ парсинга. Работать соответствено абсолютно невозможно. Пробовал разные кодировки (1250, 1251, 65001). Все без толку. В приложении скинул принтскрины проблемы.

    Надо что-то делать, а вот что, без понятия(

    Screenshot_1.jpg Screenshot_2.jpg Снимок.PNG
     
  2. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.334
    Здравствуйте
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    не работает сам сайт.
    Не удается получить доступ к сайту
    Превышено время ожидания ответа от сайта
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    Ничем пока не поможем
     
  3. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.662
    Город:
    Сочи
  4. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.662
    Город:
    Сочи
    Сайт заработал.

    Никаких проблем с кодировкой я не вижу:
    2017-02-23_11-16-43.png

    Приложите ваш файл проекта, чтобы увидеть проблемы с кодировкой.
     
  5. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.334
    Здравствуйте
    Лучше создайте новый проект shift+ctrl+n вставьте туда ссылку и попробуйте настроить границу.
    Скорее всего вы нашаманили что-то лишнее.
     
  6. DimasPeaceKashirin

    DimasPeaceKashirin New Member Пользователи

    Регистрация:
    22 фев 2017
    Сообщения:
    3
    Вот создал новый проект.
    Ничего не шаманил. Только ссылка на сайт.
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! - вот итог при задании границ парсинга. Такие же проблемы с кодировкой
     
  7. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.334
    очень странно, постучите мне в скайп, посмотрим что можно сделать.
     
  8. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.334
    Приветствую!
    Проблема заключается вот в чем. Когда изначально программа устанавливается на системе где windows не принадлежит русской time зоне, то мы при установке сразу видим вот такое.
    [​IMG]
    насколько я понимаю, это из-за того что она не откомпилирована в utf-8.

    Тогда на многих сайтах у нас будет кракозябра.
    [​IMG]
    Что нужно сделать?
    1) Открываем код страницы и ищем в первых 10 строках слово charset= после него в кавычках или нет будет идти кодировка страницы (это не обязательный тег для страницы, но по правилам этикета он почти всегда прописывается:
    [​IMG]
    2) Смотрим что у нас кодировка windows-1251 (кириллица)
    3) Открываем меню кодировок и ставим CUSTOM
    [​IMG]
    Откроется меню изменения кодировки.
    [​IMG]
    4) Нажимаем (1) Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! , попадаем в список кодировок. Ищем нашу кодировку и берем левое цифровое значение, которое id (в нашем случае это 1251)
    5) прописываем его в (2)
    6) НАЖИМАЕМ (3)
    Получаем результат:
    [​IMG]

    P.s. предлагаю перенести данный пост в систему помощи, Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! а то там как-то совсем мало написано.
     
  9. DimasPeaceKashirin

    DimasPeaceKashirin New Member Пользователи

    Регистрация:
    22 фев 2017
    Сообщения:
    3
    И так. Выше описаны 2 метода решения проблемы. Подставить в Custom кодировку мне не помогло.
    >Проблема заключается вот в чем. Когда изначально программа устанавливается на системе где windows не принадлежит русской time зоне, то мы при установке сразу видим вот такое.
    Зато в случае выше помогает решить проблему вот такой порядок действий:
    upload_2017-2-28_13-50-0.png
    upload_2017-2-28_13-51-27.png
    upload_2017-2-28_13-52-34.png
    Последний параметр у меня стоял Английский. Меняем на Русский, перезагружаем компьютер и все работает!
     
    kagorec и Root нравится это.
  10. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.662
    Город:
    Сочи
    Здравствуйте.

    Спасибо!
     
  11. Duck83

    Duck83 Member Пользователи

    Регистрация:
    3 окт 2017
    Сообщения:
    55
    Город:
    Симферополь
    Здравствуйте. Также столкнулся с проблемой кодировки при парсинге. Ссылки с символом "å" вообще не видит, то есть выдает "результирующий документ оказался пустым". Страницы с линками, где присутствует данный символ - вообще не загружает html код, в итоге нельзя задать границы парсинга. Дело в том, что сайт, который пытаюсь спарсить на кодировке utf-8, и все остальные страницы, где нет в чпу подобного символа - программа парсит корректно. Я уже utf-8 в настройках программы выставлял, и через custom пытался подобрать кодировку, и также ставил auto - не помогает. Самое интересное, что линки с того же сайта с другими символами скандинавского алфавита парсит, но вот с
    å не хочет. Подскажите, как быть в данном случае?
     
  12. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.662
    Город:
    Сочи
    Здравствуйте.

    Мы не можем изучить эту проблему, так как вы не предоставили проблемную ссылку.
     
  13. Duck83

    Duck83 Member Пользователи

    Регистрация:
    3 окт 2017
    Сообщения:
    55
    Город:
    Симферополь
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1000 постов.**
     
  14. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.662
    Город:
    Сочи
  15. Duck83

    Duck83 Member Пользователи

    Регистрация:
    3 окт 2017
    Сообщения:
    55
    Город:
    Симферополь
  16. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.662
    Город:
    Сочи
    Не знаю, в чем у вас проблема. Программа работает. Смотрите скриншот.
     
    Duck83 нравится это.
  17. Duck83

    Duck83 Member Пользователи

    Регистрация:
    3 окт 2017
    Сообщения:
    55
    Город:
    Симферополь
    Заработало. Нужно было поставить галку на чекбоксе "контент" в настройках http запросов. У вас его не было на скрине, и я у себя его тоже не поставил. Спасибо за помощь!
     
  18. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.334
    При установке галочки win ГАЛОЧКА КОНТЕНТ не требуется.
    У меня тоже работает нормально.
     
  19. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.662
    Город:
    Сочи
    У него почему-то WinInet не работает

    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!

    Это походу какие-то модифицированные сборки Windows у людей (испорченные).

    Установите оригинальную сборку Windows.
     
    Kreol нравится это.
  20. Duck83

    Duck83 Member Пользователи

    Регистрация:
    3 окт 2017
    Сообщения:
    55
    Город:
    Симферополь
    Лицензионная у меня windows 8.1, без модификаций
     

Поделиться этой страницей