Фильтр иероглифов примерно такого вида Обла

Тема в разделе "Решение проблем с использованием программы", создана пользователем Igor, 6 июл 2017.

  1. Igor

    Igor Active Member Пользователи

    Регистрация:
    13 янв 2017
    Сообщения:
    125
    Как отфильтровать документы и добавить на повторную загрузку с такими иероглифами Область применения
     

    Вложения:

  2. Dumka

    Dumka Well-Known Member Пользователи

    Регистрация:
    8 фев 2012
    Сообщения:
    121
    а не проще кодировку сменить к примеру на utf8 и все исправиться должно ;)
     
  3. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Предоставьте пример проблемной ссылки.
     
  4. Igor

    Igor Active Member Пользователи

    Регистрация:
    13 янв 2017
    Сообщения:
    125
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
     
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Убедитесь, что выбрано автоопределение кодировки (выделено зеленым маркером на скриншоте)

    2017-07-07_10-09-54.png
     
  6. Igor

    Igor Active Member Пользователи

    Регистрация:
    13 янв 2017
    Сообщения:
    125
    так то конечно нет, а при парсинге через прокси есть
     
  7. Igor

    Igor Active Member Пользователи

    Регистрация:
    13 янв 2017
    Сообщения:
    125
    так же интересует
    Ссылки недоступны для гостей
    Это то понятно как отключить, а как быть если забанен и такое окошко вылазит только при использовании прокси. Через прокси заходить в експловер?
     
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Чтобы решить проблему мне нужно воспроизвести ее у себя. У себя такую проблему с кодировкой я так и не произвел. Если угодно, можете предоставить адрес прокси для теста функции автоопределения кодировки.
     
  9. Igor

    Igor Active Member Пользователи

    Регистрация:
    13 янв 2017
    Сообщения:
    125
    ок, я завтра скину прокси после обед.
     
  10. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.429
    Адрес:
    Latvia
    Из всего описанного вами, можно предположить что такие иероглифы попадаются редко и именно при парсинге через прокси.
    В таком случае эту "искусственную проблему" можно попробовать обойти так:
    1. Настройка фильтров ctrl+t, укажите текстовик в который будет вписывать удачно спарсенные ссылки.
    2. Настройка фильтров по ключевым словам shift+ctrl+t, выберите границы наименования товара и описания толвара тоесть где эти иероглифы встречаются иногда,
    теперь чуть ниже отметить "поиск вхождения" и впишите построчно символы в окне ниже
    Код:
    Рћ
    Р±
    ±Р
    Р°
    Рї
    ЂР
    µР
    ёСЏ
    3. При парсинге такие страницы отфильтрует, значит не сохранятся в ctrl+t текстовике, надо будет повторно по всему списку попарсить товары, спарсенное сразу отсеит и останется повторно попытаться обратиться к странице возможно теперь с другой проксей будет кодировка корректная. ЕЩЕ вариант отключить прокси и допарсить напрямую со своего ип аккуратно в один поток с паузой
     
    Igor нравится это.
  11. r0dos

    r0dos New Member Пользователи

    Регистрация:
    4 сен 2017
    Сообщения:
    2
    Столкнулся с подобной проблемой, прокси не использую.
    Первая ссылка: каракули во всех кодировках.
    скрин1.jpg
    Вторая ссылка: нормально отображается.
    Сайт один, все ссылки из карты сайта, в браузере код отображается корректно, программу перезапускал.
    Как воспроизвести не знаю :) но уже не первый раз такое.
     
    Igor нравится это.
  12. Igor

    Igor Active Member Пользователи

    Регистрация:
    13 янв 2017
    Сообщения:
    125
    Мб когда то ответят) все таки 2 сообщения уже а не 1))
     
  13. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Вилами по воде писано. Где ссылки проблемные?
     
  14. Igor

    Igor Active Member Пользователи

    Регистрация:
    13 янв 2017
    Сообщения:
    125
    Я же вам уже скидывал проект и прокси и ссылки на почту, давненько. Но вы не ответили.
     
  15. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Человек, у которого я спросил, это вы? Я спрашиваю не у вас.
     
  16. Igor

    Igor Active Member Пользователи

    Регистрация:
    13 янв 2017
    Сообщения:
    125
    Извините конечно, но там не было адресата получателя в вашем сообщении, моя проблема с этим так же не решена еще и у меня так же есть проект где кракозябры достает без прокси хотя страничка все норм отображается, но при парсинге не понятная кодировка
     
  17. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Тогда еще раз сюда скиньте адреса проблемных документов.
     
  18. Etoya

    Etoya New Member Пользователи

    Регистрация:
    20 окт 2017
    Сообщения:
    1
    Город:
    Москва
    Добрый день!
    У меня такая проблема возникла, причем на 2% ссылок сайта все нормально. upload_2017-10-20_12-23-58.png
     
  19. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    2017-10-21_08-27-09.png
     

Поделиться этой страницей