язык, нет ли готовых функций напр. у ICU? Копаю пока безрезульт, подскажи, если знаешь, ALL
Собственно, текст в UTF-8 может содержать одновременно несколько языков. Что вы предполагаете получить в таком случае?
>Собственно, текст в UTF-8 может содержать одновременно несколько языков. Что вы предполагаете
>получить в таком случае?Такие вещи делаются с помощь статистики. Ключевые слова: цепи маркова (hidden markov model), сглаживание (smoothing, Good-Turing, Witten-Bell, Add-lambda,...), текстовый корпус (texts corpus)
и др.
[1] наводит на мысль, что можно провести нормализацию формы C, а потом, закрыв глаза на диапазон 0x0300 - 0x036F и ему подобные из [2], прикинуть, что там за язык.[1] http://ru.wikipedia.org/wiki/Unicode#.D0.9C.D0.BE.D0.B4.D0.B...
[2] http://www.unicodemap.org/
>[1] наводит на мысль, что можно провести нормализацию формы C, а потом,
>закрыв глаза на диапазон 0x0300 - 0x036F и ему подобные из
>[2], прикинуть, что там за язык.Ну да, есть ведь коды конкретно принадлежащие языкам. Если нет - значит неизвестно, на нет и суда нет, а если есть - я думал, что есть готовые решения на C++ получать это автоматически. Всё надо делать самому, гля
>Ну да, есть ведь коды конкретно принадлежащие языкам. Если нет - значит
>неизвестно, на нет и суда нет, а если есть - я
>думал, что есть готовые решения на C++ получать это автоматически. Всё
>надо делать самому, гляТе кто хочет странного, всегда все делают сами.