Как собирать ссылки с кирилических доменов?

Тема в разделе "Парсинг во вкладке "Ссылки"", создана пользователем kagorec, 28 авг 2015.

  1. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.144
    Адрес:
    @kagorec
    Город:
    Riga
    Здраствуйте
    Возможно сталкивались с проблемой когда сайт имеет кириллический (русский) домен и не поддается парсингу.
    Решение:
    1. Использовать преобразованный домен методом Punycode
    2 Открываем любой сервис преобразования доменов, например на 2ip.ru/punycode/ или на fooflo.ru/
    Пример - вставляем теплостен-спб.рф и после перевода получаем xn----btbka3anfgfqddf.xn--p1ai
    3. В Content Downloader используем домен в формате punycode, а именно в тех местах где требуется
    * в фильтре ссылок (ctrl+3).
    * в сканере ссылок (ctrl+7), задать как стартовую ссылку и для очереди.
    * в глобальной "поиск-замена" (shift+ctrl+r), не помешает, замена вида теплостен-спб.рф|xn----btbka3anfgfqddf.xn--p1ai

    Надеюсь это поможет вам решить проблему работы C.D. с рф доменами) :soccer:

    П.С. Пару ключевых слов чтобы поиском найти легче: как собрать ссылки с русского сайта, не получается собрать русский, не работает сбор ссылок ссылок, русский домен, рф домен ссылки, русские ссылки собрать
     
  2. Farid

    Farid New Member Пользователи

    Регистрация:
    1 сен 2015
    Сообщения:
    84
    Добрый день!
    Не удается собрать ссылки к товарам.
    В сканере сайтов добавил страницы с которых брать ссылки на товары, но ссылки сканер не выдает.
    В чем может быть проблема? Проект вложил.
     

    Вложения:

    • solomo.cdp
      Размер файла:
      48,9 КБ
      Просмотров:
      4
  3. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.144
    Адрес:
    @kagorec
    Город:
    Riga
    Чтобы сканер работал то его надо настроить для начала хоть указать стартовую ссылку (в вашем проекте не обнаружил настроенного сканера).
    Но лучше собирать из вкладки "ссылки" с ограничением области поиска (по середине где товарные ссылки, чтоб меню и т.д. не зацепило)

    Материалы по теме:
    Ссылки недоступны для гостей Генерация списков ссылок с использованием заданных числовых и/или строковых значений (ключевых слов)
     

    Вложения:

    Последнее редактирование: 6 ноя 2015
  4. JagerJ

    JagerJ Member Пользователи

    Регистрация:
    8 фев 2017
    Сообщения:
    45
    Не нашел более подходящей темы - поэтому пишу здесь.
    Сканер сайтов собрал ссылки. Среди них есть трех видов:
    1. с латинскими символами - парсятся без проблем
    2. с символами вот такого вида (тоже парсятся нормально, они корректно преобразовываются в кириллическую ссылку): Ссылки недоступны для гостей
    3. с такими символами (НЕ ПАРСЯТСЯ): Ссылки недоступны для гостей
    Как мне побороть эту ситуацию? Пробовал парсить через DOM (без выполнения каких-либо цепочек событий), но это не помогло. Если вставляю такую ссылку просто в браузер (не в CD) - она тоже не открывается. Если обрезать до вида Ссылки недоступны для гостей - браузер открывает, дописывая кириллицу в конец ссылки. Предпросмотр парсинга не дает результатов с обрезанной ссылки - в окне с кодом текст страницы 404, а в окне браузера - нормальная страничка с данными. Поэтому использую DOM.
    Прилагаю проект в надежде на помощь знающих людей.

    P.S. Пока закончил пост - решил попробовать обрезать в екселе ссылки до цифр в конце. Вставлял в ексель как данные из txt - и он самостоятельно преобразовал все иероглифы в кириллицу. В общем списке получились ссылки из латиницы; из кириллицы; из букв с %. В таком виде парсится все отлично (даже без DOM). Так что вдруг кому пригодится - берите на вооружение. Может есть и другое решение от знающих людей - это только к лучшему
     

    Вложения:

    • infomisto_com.cdp
      Размер файла:
      1,5 МБ
      Просмотров:
      1
    • jobs_ua.wbapp
      Размер файла:
      478 байт
      Просмотров:
      0
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    13.965
    Город:
    Барнаул
    Во-первых, здравствуйте!

    Если вы не нашли тему, вам нужно создать новую, а не писать в других, не подходящих по смыслу!

    Нам не нужно изучать ваши проекты и искать там подобные ссылки.

    Если вы хотите получить помощь, ВАМ НУЖНО указать ссылку, где расположен проблемный URL и тогда мы посмотрим, в чем проблема. Разве так сложно.
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    13.965
    Город:
    Барнаул
  7. JagerJ

    JagerJ Member Пользователи

    Регистрация:
    8 фев 2017
    Сообщения:
    45
    Здравствуйте !!

    Как по мне - тема подходящая, вопрос о кириллице в ссылках сюда подходит. Если у администрации другое мнение - я не буду переживать из-за переноса или удаления моего вопроса.

    В тексте моего сообщения как раз и была указана проблемная ссылка - она под номером 3. Если НЕ СЛОЖНО - подскажите, как решать подобные проблемы. В прикрепленном проекте я уже вставил все корректные ссылки (про их получения я написал в П.С.) - и он весь парсится. Получу ли я ответ на мой вопрос - не критично, свою задачу я выполнил. Просто подозреваю, что существует более удобный способ борьбы с кодировками урлов, и узнать это было бы полезным не только мне.

    Заранее спасибо за помощь!
    И всегда спасибо за внимание к вопросам пользователей.
     
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    13.965
    Город:
    Барнаул
    Я проблемы с вашим проектом вообще не вижу. Смотрите скриншот выше. Кириллица в собранных ссылках выглядит корректно! Как вы получали ссылки с битой кодировкой - для меня загадка.
     

Поделиться этой страницей