Проблемы с кодировкой при парсинге с помощью WBApp

Тема в разделе "Решение проблем с использованием программы", создана пользователем dexperanto, 5 окт 2019.

  1. dexperanto

    dexperanto New Member Пользователи

    Регистрация:
    21 ноя 2014
    Сообщения:
    123
    Вечер добрый.
    При попытке парсинга Ссылки недоступны для гостей через wbapp в самом wbapp и в коде его кириллица нормальная. При попытке сделать gethtml отдаётся абра-кадабра обратно в парсер. Кодировки в настройках менял, не спасло, на 1251.
    Сообщение, должник, банкрот, банкротствР

    Как можно решить данную проблему?
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    При выборе кодировки UTF-8 все ок.
     

    Вложения:

  3. ITz

    ITz Member Пользователи

    Регистрация:
    31 янв 2020
    Сообщения:
    43
    Город:
    Third Rome
    подыму тему, имеем сайт
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 10 постов.**
    при попытке отправки запроса вида
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 10 постов.**
    CD почемуто отправляет текстовую часть запроса крякозяблами, битрикс на сайте каким-то образом его даже понимает и как может обрабатывает.. думаю проблема в самом сайте с его кодировкой win-1251 и его другими закидонами, тем не менее при парсинге этого сайта работать приходится в кодировке utf-8
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Нужно перекодировать часть запроса в URL кодировку. Вы даже в браузере эту ссылку не откроете нормально.

    Завтра напишу, как это сделать.
     
    ITz нравится это.
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Сгенерируйте ссылки с автоматическим кодированием {key}

    2021-05-18_05-54-49.png
     
    ITz нравится это.

Поделиться этой страницей