Сайт с кирилическими урлами

Тема в разделе "Решение проблем с использованием программы", создана пользователем stomp, 2 авг 2017.

  1. stomp

    stomp New Member Пользователи

    Регистрация:
    22 дек 2013
    Сообщения:
    10
    Всем привет! Пробую спарсить сайт на котором есть урлы на кирилице. В итоге собираются ссылки кракозябрами, по которым нет возможности перейти, отдает 404 ошибку. Кодировка стоит AUTO остальные тоже перепробовал, ничего не помогло.

    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
     
  2. Japonec

    Japonec Well-Known Member Пользователи

    Регистрация:
    19 июл 2015
    Сообщения:
    92
    Адрес:
    Kiev
    попробуйте этот проект. У меня нормально всё сканирует.
     

    Вложения:

    stomp нравится это.
  3. stomp

    stomp New Member Пользователи

    Регистрация:
    22 дек 2013
    Сообщения:
    10
    Да спасибо на нем работает. Галку тоже ставил преобразовывать ссылки из URl кодировки, но не пошло.
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Выберите нужную кодировку тут
    2017-08-03_08-56-44.png
     
    stomp нравится это.
  5. stomp

    stomp New Member Пользователи

    Регистрация:
    22 дек 2013
    Сообщения:
    10
    Спасибо. Про эту настройку не знал.
     
    Root нравится это.
  6. Eclipsium

    Eclipsium New Member Пользователи

    Регистрация:
    4 авг 2017
    Сообщения:
    3
    Город:
    Томск
    А у меня возникла такая трабла:

    При парсинге сайта на ВП, при парсинге статей выходит кракозябра.

    Ссылки недоступны для гостей

    Кодировку менял, ничего не вышло.
     
  7. stomp

    stomp New Member Пользователи

    Регистрация:
    22 дек 2013
    Сообщения:
    10
    так покажи пациента под хайдом
     
  8. Eclipsium

    Eclipsium New Member Пользователи

    Регистрация:
    4 авг 2017
    Сообщения:
    3
    Город:
    Томск
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 5 постов.**
     
  9. stomp

    stomp New Member Пользователи

    Регистрация:
    22 дек 2013
    Сообщения:
    10
    С браузера заходит. Сканером сразу останавливает, ставил даже 1 поток.
     
  10. Eclipsium

    Eclipsium New Member Пользователи

    Регистрация:
    4 авг 2017
    Сообщения:
    3
    Город:
    Томск
    Ага, там кеширование интересное плюс сервак облачный. Но смысл в том, что он кодировку не кушает, хотя браузер это делает. Плюс ссылки с сайтмапа не дергает, т.к. они расположены деревом по 1 карте на каждый месяц. Короче интересный случай.
    Идея была спарсить ссылки на все статьи и ключи в таблицу.
     
  11. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул

Поделиться этой страницей