URL: https://www.opennet.me/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID9
Нить номер: 8792
[ Назад ]

Исходное сообщение
"Как получить язык ISO 639 из юникода? Надо автоопределять"

Отправлено UTF8 , 28-Июн-10 10:33 
язык, нет ли готовых функций напр. у ICU? Копаю пока безрезульт, подскажи, если знаешь, ALL

Содержание

Сообщения в этом обсуждении
"Как получить язык ISO 639 из юникода? Надо автоопределять"
Отправлено jd , 29-Июн-10 03:43 
Собственно, текст в UTF-8 может содержать одновременно несколько языков. Что вы предполагаете получить в таком случае?

"Как получить язык ISO 639 из юникода? Надо автоопределять"
Отправлено vle , 06-Авг-10 02:12 
>Собственно, текст в UTF-8 может содержать одновременно несколько языков. Что вы предполагаете
>получить в таком случае?

Такие вещи делаются с помощь статистики. Ключевые слова: цепи маркова (hidden markov model), сглаживание (smoothing, Good-Turing, Witten-Bell, Add-lambda,...), текстовый корпус (texts corpus)
и др.


"Как получить язык ISO 639 из юникода? Надо автоопределять"
Отправлено arturpub , 30-Июн-10 20:52 
[1] наводит на мысль, что можно провести нормализацию формы C, а потом, закрыв глаза на диапазон 0x0300 - 0x036F и ему подобные из [2], прикинуть, что там за язык.

[1] http://ru.wikipedia.org/wiki/Unicode#.D0.9C.D0.BE.D0.B4.D0.B...
[2] http://www.unicodemap.org/


"Как получить язык ISO 639 из юникода? Надо автоопределять"
Отправлено UTF8 , 12-Июл-10 20:19 
>[1] наводит на мысль, что можно провести нормализацию формы C, а потом,
>закрыв глаза на диапазон 0x0300 - 0x036F и ему подобные из
>[2], прикинуть, что там за язык.

Ну да, есть ведь коды конкретно принадлежащие языкам. Если нет - значит неизвестно, на нет и суда нет, а если есть - я думал, что есть готовые решения на C++ получать это автоматически. Всё надо делать самому, гля


"Как получить язык ISO 639 из юникода? Надо автоопределять"
Отправлено аноним , 06-Авг-10 17:26 
>Ну да, есть ведь коды конкретно принадлежащие языкам. Если нет - значит
>неизвестно, на нет и суда нет, а если есть - я
>думал, что есть готовые решения на C++ получать это автоматически. Всё
>надо делать самому, гля

Те кто хочет странного, всегда все делают сами.