Парсинг иностранного сайта?

Тема в разделе "Решение различных задач по парсингу", создана пользователем Эри, 6 мар 2013.

  1. Эри

    Эри New Member Пользователи

    Регистрация:
    16 фев 2013
    Сообщения:
    17
    Город:
    Волгоград
    Привет всем!
    Хочу спарсить иностранный сайт, если какая возможность перевода текста во время парсинга?
     
  2. alamina.moon

    alamina.moon Модератор Команда форума Модератор

    Регистрация:
    14 янв 2013
    Сообщения:
    214
    Да, для этого используется php скрипт который получает текст и отправляет контент в Гугл переводчик, после этого скрипт возвращает в программу переведенный текст. Скрипт можно найти на форуме.
     
  3. Эри

    Эри New Member Пользователи

    Регистрация:
    16 фев 2013
    Сообщения:
    17
    Город:
    Волгоград
    Благодарю буду искать
     
  4. SeoMag

    SeoMag New Member Пользователи

    Регистрация:
    1 ноя 2013
    Сообщения:
    12
    У меня вопрос по парсингу одного польского сайта - вместо некоторых букв программа заменяет их значками ą на ± и ś на ¶ - фигня какая-то получается...(((
     
  5. SeoMag

    SeoMag New Member Пользователи

    Регистрация:
    1 ноя 2013
    Сообщения:
    12
    Ээгегееееей?) Тут форум ваще живой?) Вопрос висит 2 день и не гугу) Реальная проблема - парсишь иностранный сайт, а добрая часть букв заменяется на знаки, тем самым гугл переводчик очень плохо помогает - что делать?
     
  6. nikolas1612

    nikolas1612 Member Пользователи

    Регистрация:
    27 ноя 2011
    Сообщения:
    439
    ну если молчат все - значит, посоветовать нечего, не сталкивался никто.
    во-первых, попробуйте сохранение в кодировке utf8, во вторых где-то на форуме писали что для отображения китайских кракозябл надо в Винде изменить то ли язык по умолчанию, то ли региональные настройки. поищите по форуму, может, это и ваш случай.
    а вообще идеальный вариант всегда был, и будет - приложить проект. мне вот, к примеру, такой как раз сейчас и нужен ;)
    в смысле переводчик.
    поможем друг другу. думаю, я придумаю что и где накрутить чтобы все стало ОК.
     
  7. mat

    mat New Member Пользователи

    Регистрация:
    8 май 2010
    Сообщения:
    63
    Ссылки недоступны для гостей про китайский и не только языки. В принципе работает, я пробовал, скачивает, но нельзя потом обработать. По крайней мере у меня не получилось вручную в "массовой обработке файлов". Все сбрасывает. Но вроде и скачивает, если просто указать вывод в utf-8, а вот дальше "шляпа".
    А решение, да, было бы интересно найти.
     
  8. SeoMag

    SeoMag New Member Пользователи

    Регистрация:
    1 ноя 2013
    Сообщения:
    12
    Да, видел на счёт китайского и пробовал в системе ставить польский, но не помогло((
    На счёт скриптов - я не ползуюсь, хоть и хотелось бы) У меня алгоритм - скачать инфу и перевести вручную - всё равно скрипт не позволит иметь нормальный текст после гугл перевода - нужно править вручную, так что без разницы есть он или нет...
    А на счёт моего случая - странно конечно почему КД не может просто перегнать кусок исходного кода в CSV который я потом и вставлю в БД, а подставляет свои символы. Печалька((
     

Поделиться этой страницей