Сайт на арабском

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем coolbratan, 19 дек 2014.

  1. coolbratan

    coolbratan New Member Пользователи

    Регистрация:
    27 ноя 2014
    Сообщения:
    52
    Город:
    Харьков
    Здравствуйте. Есть сайт на арабском языке, с которого нужно спарсить информацию (пример ссылки с нужными данными
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    ). Ссылки на сами данные я то спарсил, а вот дальше - у меня вместо арабского одни вопросы выводит, пробовал менять кодировку, добавлял в Windows XP шрифты, кодировки, поддержку языков, не помогает. Что делаю не так, ума не приложу! Помогите, плиз!
     
    Последнее редактирование: 19 дек 2014
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Символы арабского языка в UTF-8 кодировке. Следовательно, для того, чтобы их сохранять, необходимо выбрать кодировку сохраняемого документа, как UTF-8.

    Проект приложил...

    С уважением к вам, Сергей...
     

    Вложения:

    • portal_ps.cdp
      Размер файла:
      26,4 КБ
      Просмотров:
      1
  3. coolbratan

    coolbratan New Member Пользователи

    Регистрация:
    27 ноя 2014
    Сообщения:
    52
    Город:
    Харьков
    Спасибо огромное! Я так и думал, что ответ на поверхности, но сам не нашел, в чем проблема. Еще один вопрос: на сайте есть ссылки и их название, мне нужно, чтобы в конечном документе были гиперссылки (т.е. как на сайте - название, на него нажимаешь, открывается страница), возможно ли как-то реализовать эту задачу?
    P.S.:
    Я понимаю, что в принципе задачу можно решить через функцию excel "Гиперссылка", но всетаки хотелось бы знать, как реализовать такую задачу через CD.
     
    Последнее редактирование: 19 дек 2014
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Пожалуйста.

    Покажите на примере: что есть и что нужно получить. Так ничего с ваших слов толком непонятно!
     
  5. coolbratan

    coolbratan New Member Пользователи

    Регистрация:
    27 ноя 2014
    Сообщения:
    52
    Город:
    Харьков
    Хорошо, речь идет о том же сайте (проект во вложении). Граница парсинга 10 - это имя ссылки, граница парсинга 11 - это URL этой ссылки. Мне нужно, чтобы при нажатии на имя ссылки открывался URL. В столбце N приложенного excel файла я реализовал задачу с помощью функции excel "ГИПЕРССЫЛКА". Но хотелось бы делать это в CD.
     

    Вложения:

  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    В столбец 10 вставить:
    Код:
    <a href="<CD_GRAN_11!>"><CD_GRAN_10!></a>
     
  7. coolbratan

    coolbratan New Member Пользователи

    Регистрация:
    27 ноя 2014
    Сообщения:
    52
    Город:
    Харьков
    Спасибо огромное! А если делать ссылку на локальный файл, будет работать?
     
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Пожалуйста. Может быть будет, если грамотно сделать.
     
  9. coolbratan

    coolbratan New Member Пользователи

    Регистрация:
    27 ноя 2014
    Сообщения:
    52
    Город:
    Харьков
    К сожалению, код, который должен вставлять ссылку, не работает. Что делаю не так?
     

    Вложения:

  10. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Приведите пример CSV с вашей "работающей гиперссылкой".
     
  11. coolbratan

    coolbratan New Member Пользователи

    Регистрация:
    27 ноя 2014
    Сообщения:
    52
    Город:
    Харьков
    Вот файл с работающей гиперссылкой. В приложении файл проекта, с помощью которого у меня это получилось и excel файл с требуемым результатом. Я понимаю, что это метод корявый, но сработал. После парсинга, мне нужно было удалить саму формулу "ГИПЕРССЫЛКА" из ячеек, оставить только значения. Для этого я взял скопировал ящейки в Word, а затем обратно в Excel, формула удалилась, а значение осталось. Конечно, это мне повезло, что значений всего 600 строк, а если-бы было 600000, я бы долго упражнялся в копировании и вставке.
     

    Вложения:

    • portal_ps.rar
      Размер файла:
      154,7 КБ
      Просмотров:
      2
    • portal_ps3.cdp
      Размер файла:
      142,7 КБ
      Просмотров:
      0
  12. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Программа парсит в CSV, а не в xls (вы показали пример xls-файла). Думаю, формат "каких вы хотите гипер-ссылок" CSV не поддерживает!

    С уважением к вам, Сергей.
     
  13. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Пользуемся Notepad++ и все работает за один присест.
    С другой стороны крайне неясно, зачем Вам "живые ссылки" в файле? Разве что только для самопроверки, хотя тоже оставляет ряд вопросов. Если очень необходимо, то можно использовать google spreadsheet
    Ну а с третей, не так сложно использовать формулу Гиперссылки
     
  14. coolbratan

    coolbratan New Member Пользователи

    Регистрация:
    27 ноя 2014
    Сообщения:
    52
    Город:
    Харьков
    Извините, не тот файл отправил, вот csv файл с результатом, который мне нужен, но он правильного вида только при открытии в Excel.

    Согласен, что проще отредактировать в Exсele файл и не заморачиваться, да вот только после редактирования, файл можно корректно сохранить только в формате .xls, если сохранять после редактирования в .csv арабский текст превращается в вопросы. А мне результат нужен именно в формате .csv
     

    Вложения:

    • portal_ps.rar
      Размер файла:
      65,1 КБ
      Просмотров:
      1
  15. coolbratan

    coolbratan New Member Пользователи

    Регистрация:
    27 ноя 2014
    Сообщения:
    52
    Город:
    Харьков
    Живые ссылки нужны для базы данных, в которую я импортирую эту информацию. Не сложно использовать формулу ГИПЕРССЫЛКА, но приходится потом сохранять в xls, так как в csv после редактирования файл сохраняется не корректно. А мне нужен именно csv.
     
  16. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Откройте ваш CSV в блокноте и посмотрите на следующее:
    Вам нужно просто в соответствующее место шаблона вывода добавить =ГИПЕРССЫЛКА(" и закрыть это ", как сделано в вашем примере.
    Проблем с этим быть у вас не должно...

    Если что-то не получится - обращайтесь, постараемся помочь.

    С уважением к вам, администрация сайта.
     
  17. coolbratan

    coolbratan New Member Пользователи

    Регистрация:
    27 ноя 2014
    Сообщения:
    52
    Город:
    Харьков
    Еще один вопрос по этой теме: можно ли как-то редактировать csv файл UTF-8 через CD и сохранять его корректно (в csv арабский текст)?

    Может я чего-то не нашел, но в редакторе csv только две кодировки для сохранения: utf-8(без dom) и ansi, а мне нужно просто utf-8, потому как если сохраняю в utf-8(без dom), получаются вопросики вместо Арабского, а в ansi вообще непонятные символы типа Иврита.
     
  18. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Можете приложить сюда этот CSV-файл?

    Спасибо!
     
  19. coolbratan

    coolbratan New Member Пользователи

    Регистрация:
    27 ноя 2014
    Сообщения:
    52
    Город:
    Харьков
    Файл уже выкладывал выше в этой теме, еще раз во вложении
     

    Вложения:

    • portal_ps.rar
      Размер файла:
      65,1 КБ
      Просмотров:
      3
  20. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Открыл ваш файл в редакторе CSV. Сохранил его в UTF-8-кодировке и вот что вышло (прикрепил файл к сообщению). Никаких проблем с данным файлом не обнаружил...
     

    Вложения:

Поделиться этой страницей