Фильтр иероглифов примерно такого вида Обла

Тема в разделе "Решение проблем с использованием программы", создана пользователем Igor, 6 июл 2017.

  1. Igor

    Igor Member Пользователи

    Регистрация:
    13 янв 2017
    Сообщения:
    71
    Как отфильтровать документы и добавить на повторную загрузку с такими иероглифами Область применения
     

    Вложения:

  2. Dumka

    Dumka Well-Known Member Пользователи

    Регистрация:
    8 фев 2012
    Сообщения:
    67
    а не проще кодировку сменить к примеру на utf8 и все исправиться должно ;)
     
  3. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    8.112
    Адрес:
    sbfroot@gmail.com
    Город:
    Краснодар
    Здравствуйте.

    Предоставьте пример проблемной ссылки.
     
  4. Igor

    Igor Member Пользователи

    Регистрация:
    13 янв 2017
    Сообщения:
    71
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
     
  5. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    8.112
    Адрес:
    sbfroot@gmail.com
    Город:
    Краснодар
    Убедитесь, что выбрано автоопределение кодировки (выделено зеленым маркером на скриншоте)

    2017-07-07_10-09-54.png
     
  6. Igor

    Igor Member Пользователи

    Регистрация:
    13 янв 2017
    Сообщения:
    71
    так то конечно нет, а при парсинге через прокси есть
     
  7. Igor

    Igor Member Пользователи

    Регистрация:
    13 янв 2017
    Сообщения:
    71
    так же интересует
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    Это то понятно как отключить, а как быть если забанен и такое окошко вылазит только при использовании прокси. Через прокси заходить в експловер?
     
  8. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    8.112
    Адрес:
    sbfroot@gmail.com
    Город:
    Краснодар
    Чтобы решить проблему мне нужно воспроизвести ее у себя. У себя такую проблему с кодировкой я так и не произвел. Если угодно, можете предоставить адрес прокси для теста функции автоопределения кодировки.
     
  9. Igor

    Igor Member Пользователи

    Регистрация:
    13 янв 2017
    Сообщения:
    71
    ок, я завтра скину прокси после обед.
     
  10. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    2.786
    Из всего описанного вами, можно предположить что такие иероглифы попадаются редко и именно при парсинге через прокси.
    В таком случае эту "искусственную проблему" можно попробовать обойти так:
    1. Настройка фильтров ctrl+t, укажите текстовик в который будет вписывать удачно спарсенные ссылки.
    2. Настройка фильтров по ключевым словам shift+ctrl+t, выберите границы наименования товара и описания толвара тоесть где эти иероглифы встречаются иногда,
    теперь чуть ниже отметить "поиск вхождения" и впишите построчно символы в окне ниже
    Код:
    Рћ
    Р±
    ±Р
    Р°
    Рї
    ЂР
    µР
    ёСЏ
    3. При парсинге такие страницы отфильтрует, значит не сохранятся в ctrl+t текстовике, надо будет повторно по всему списку попарсить товары, спарсенное сразу отсеит и останется повторно попытаться обратиться к странице возможно теперь с другой проксей будет кодировка корректная. ЕЩЕ вариант отключить прокси и допарсить напрямую со своего ип аккуратно в один поток с паузой
     
    Igor нравится это.
  11. r0dos

    r0dos New Member Пользователи

    Регистрация:
    4 сен 2017
    Сообщения:
    2
    Столкнулся с подобной проблемой, прокси не использую.
    Первая ссылка: каракули во всех кодировках.
    скрин1.jpg
    Вторая ссылка: нормально отображается.
    Сайт один, все ссылки из карты сайта, в браузере код отображается корректно, программу перезапускал.
    Как воспроизвести не знаю :) но уже не первый раз такое.
     
    Igor нравится это.
  12. Igor

    Igor Member Пользователи

    Регистрация:
    13 янв 2017
    Сообщения:
    71
    Мб когда то ответят) все таки 2 сообщения уже а не 1))
     
  13. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    8.112
    Адрес:
    sbfroot@gmail.com
    Город:
    Краснодар
    Вилами по воде писано. Где ссылки проблемные?
     
  14. Igor

    Igor Member Пользователи

    Регистрация:
    13 янв 2017
    Сообщения:
    71
    Я же вам уже скидывал проект и прокси и ссылки на почту, давненько. Но вы не ответили.
     
  15. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    8.112
    Адрес:
    sbfroot@gmail.com
    Город:
    Краснодар
    Человек, у которого я спросил, это вы? Я спрашиваю не у вас.
     
  16. Igor

    Igor Member Пользователи

    Регистрация:
    13 янв 2017
    Сообщения:
    71
    Извините конечно, но там не было адресата получателя в вашем сообщении, моя проблема с этим так же не решена еще и у меня так же есть проект где кракозябры достает без прокси хотя страничка все норм отображается, но при парсинге не понятная кодировка
     
  17. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    8.112
    Адрес:
    sbfroot@gmail.com
    Город:
    Краснодар
    Тогда еще раз сюда скиньте адреса проблемных документов.
     

Поделиться этой страницей