URL: https://www.opennet.me/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID1
Нить номер: 51935
[ Назад ]

Исходное сообщение
"KOI8-R или UTF-8?"

Отправлено Vertical , 24-Дек-04 20:13 
Многие разработчики дистрибутивов предпочитают использовать по умолчанию разную кодировку. Mandrake, например KOI8, Fedora - UTF.
Объясните пожалуйста, в чем концептуальное их различие. Почему одни сидят на одних, другие на других? Какие у первой и второй преимущества и недостатки? Что выбирать обычному пользователю?

Зачем вообще придуман этот выбор KOI8-R или UTF-8?


Содержание

Сообщения в этом обсуждении
"KOI8-R или UTF-8?"
Отправлено gyn61 , 24-Дек-04 20:24 
При UTF-8 вы можете например обозвать файл по русско-арабски-китайски, поскольку используется полный набор символов (это плюс). Однако не все еще программы умеют работать с UTF-8 (а это минус).



"KOI8-R или UTF-8?"
Отправлено Akademic , 25-Дек-04 10:58 
Программы со временем научатся понимать юникод.
Главный минус - код символа занимает вместо одного байта - два.
И вот за просто так мы получим удвоение трафика.
А обзывать файлы на языках кроме английского - происки Билла, который Гейтс.
И выгодно только микрософту.
Главная проблема с кодировками в том, что существует много русскоязычнах кодировок: cp1251,IBM866,ISO8859-5, ну и KOI8-R.
Издавна, большенство юниксоидов отдают предпочтение KOI8-R.
Т.к. когда рождался русский юникс(Демос) много(да почти все) программ работало только с 7-ми битной кодировкой.
И если текст написан в KOI8-R его можно было(и сейчас можно) читать как транслит.
Проблема с KOI8-R  в том, что буквы идут не по порядку, поэтому сортировать строки путём простого сравнения ASCII кодов нельзя.
Видимо, именно поэтому компании микрософт и IBM решили использовать сои кодировки. Да и ISO, наверное, тоже.
А теперь мы имеем что имеем. И над тем что имеем извращаемся.
Юникод здесь призван послужить объединяющим фактором не только внутри многообразия кирилических кодровок, но и вообще всех.
А пока у меня инет по модему - я на юникод несогласный.

"KOI8-R или UTF-8?"
Отправлено Vertical , 25-Дек-04 18:44 
Спасибо, но я все таки не понял главного - что выбирать обычному пользователю? Какие программы (из разряда критических) не понимают уникод?
Помнится, когда я менял кодировку с UTF на KOI8 в FC2 несколько программ (одна из них- system-config-network) на русском перестали нормально отображать русские символы. SCN вообще не отображала нормально только список возможных интерфейсов, все остальное было нормально. В целом все это было настолько некритично, что я так и не понял, чему я должен отдать препочтение.


"KOI8-R или UTF-8?"
Отправлено Sampan , 25-Дек-04 20:30 
>Спасибо, но я все таки не понял главного - что выбирать обычному пользователю?

Сначала подумай о том, что, наверное, более 90% рускоязычных текстов, существующих в электронном виде, набраны в CP1251 кодировке. (Сие есть объективная реальность, нравится это кому-то или нет). А уж потом выбирай кодировку.

И абсолютно не важно, кто виноват в каше русских кодировок. Если ты будешь знать злодея по имени и в лицо, перекодировать CP1251 - KOI8R (или UTF8) легче не станет.


"KOI8-R или UTF-8?"
Отправлено Akademic , 26-Дек-04 13:38 

>Сначала подумай о том, что, наверное, более 90% рускоязычных текстов, существующих в
>электронном виде, набраны в CP1251 кодировке. (Сие есть объективная реальность, нравится
>это кому-то или нет). А уж потом выбирай кодировку.

А набраны - потому что винда.
Кстати, сейчас микрософт переходит на юникод и все тексты под виндой будут набираться в юникоде.
Большнство документов станут в нём.
В ХР вроде ещё cp1251, но в Longhorn'е уже стопудово юникод.


"KOI8-R или UTF-8?"
Отправлено Sampan , 27-Дек-04 05:32 
>А набраны - потому что винда.

Какая разница почему! Важно, что СР1251

>Кстати, сейчас микрософт переходит на юникод и все тексты под виндой будут набираться в юникоде.

Кстати, Микрософт уже давно перешел на юникод (аж в 2000 году - W2K). Погляди в папку "Шрифты". Все, что помечено OpenType - юникод. Даже notepad умеет читать и сохранять в юникоде. И что изменилось за эти 5 лет?

>Большнство документов станут в нём.

Да? Блажен, кто верует!
Ну и кто же возьмется перекодировать, например, огромный text/plain архив из СР1251 в юникод в библиотеке Мошкова? Уж точно не Микрософт. А само оно, как-то, не сделается..


"KOI8-R или UTF-8?"
Отправлено Akademic , 27-Дек-04 13:07 

>Кстати, Микрософт уже давно перешел на юникод (аж в 2000 году -
>W2K). Погляди в папку "Шрифты". Все, что помечено OpenType - юникод.
>Даже notepad умеет читать и сохранять в юникоде. И что изменилось
>за эти 5 лет?

Я как-то за этим не очень следил. Ну перешли и перешли. Просто, я считаю, что именно в новой винде будет сделан больший упор на юникод. В том смысле, что по умолчанию документы будут набираться в нем. А т.к. винды давно держат юникод, то проблем с совместимостью не предвидется. Ибо микрософт уже подготовила почву.

>Да? Блажен, кто верует!
>Ну и кто же возьмется перекодировать, например, огромный text/plain архив из СР1251
>в юникод в библиотеке Мошкова? Уж точно не Микрософт. А само
>оно, как-то, не сделается..

Существуют же программы перекодировщики вроде QtextTransformer'а.
Вот натравить такую на библиотеку, и по прошествии времени всё станет так.
Но это к товарищу dev - он большой поклонник utf8. ;-)



"KOI8-R или UTF-8?"
Отправлено dev , 28-Дек-04 01:56 
>>Да? Блажен, кто верует!
>>Ну и кто же возьмется перекодировать, например, огромный text/plain архив из СР1251
>>в юникод в библиотеке Мошкова? Уж точно не Микрософт. А само
>>оно, как-то, не сделается..
>
>Существуют же программы перекодировщики вроде QtextTransformer'а.
>Вот натравить такую на библиотеку, и по прошествии времени всё станет так.
>
>Но это к товарищу dev - он большой поклонник utf8. ;-)

Это делается за час iconv'ом.


"KOI8-R или UTF-8?"
Отправлено Аноним , 29-Дек-04 11:53 
>>А набраны - потому что винда.
>
>Какая разница почему! Важно, что СР1251
>
>>Кстати, сейчас микрософт переходит на юникод и все тексты под виндой будут набираться в юникоде.
>
>Кстати, Микрософт уже давно перешел на юникод (аж в 2000 году -
>W2K). Погляди в папку "Шрифты". Все, что помечено OpenType - юникод.
>Даже notepad умеет читать и сохранять в юникоде. И что изменилось
>за эти 5 лет?
>
>>Большнство документов станут в нём.
>
>Да? Блажен, кто верует!
>Ну и кто же возьмется перекодировать, например, огромный text/plain архив из СР1251
>в юникод в библиотеке Мошкова? Уж точно не Микрософт. А само
>оно, как-то, не сделается..
>
Идиот вы батенька, в Windows есть юникод, НО!
1) notepad ==cp866
2) NTFS==CP1251
И так во всём WINDOWS XP
А то что они там чем то помечены. Так это правило M$ пометить, сказать "выполнено" и пользоваться кашей как это было во всей линейки WIN9X


"KOI8-R или UTF-8?"
Отправлено Nikola , 29-Дек-04 11:55 
Кстати iconv справится с перекодировкой текста из plain text на 5 с +
Именно его и использую для перекодировки из cp1251 cp866==>KOI8-R

"KOI8-R или UTF-8?"
Отправлено dev , 26-Дек-04 01:22 
>Главный минус - код символа занимает вместо одного байта - два.

В UTF-8 - не всегда.

>А обзывать файлы на языках кроме английского - происки Билла, который Гейтс.

Спорный вопрос. Ну а что делать с содежимым этох файлов? Например, попытайся записать в текстовый файл русско-немецкий словарь.

>А пока у меня инет по модему - я на юникод несогласный.

А как ты думаешь, на сколько возрастет объем средней веб-странички, если ее перевести из KOI8 в UTF-8? А если со сжатием?
Можно проверить, например, на этом треде. У меня получилось ~10%.


"KOI8-R или UTF-8?"
Отправлено Akademic , 26-Дек-04 13:32 

>Спорный вопрос. Ну а что делать с содежимым этох файлов? Например, попытайся
>записать в текстовый файл русско-немецкий словарь.

Имхо это есть не проблема кодировки, а используемых шрифтов.
Хотелось бы посмотреть на полную юникод клавиатуру ;-)

Имена файлов представляют, имхо, бОльшую проблему.
Буквально вчера мне принесли дискету.
На ней rar архив, названный русскими буквами(я так думаю в юникоде).
Ладно, при копировании имя переконвертировалось в KOI8-R.
Внутри архива доки тоже с русскими именами(тоже в юникоде) - страшные крякозяблы. Программами не открывается, переименовываться не хочет.

>А как ты думаешь, на сколько возрастет объем средней веб-странички, если ее
>перевести из KOI8 в UTF-8? А если со сжатием?
>Можно проверить, например, на этом треде. У меня получилось ~10%.

Десять процентов - достаточно много для меня.

К тому же, есть сжатие - нет его.
На конечном компьютере в памяти юникод символ всё равно 2 байта.
Да, конечно, сейчас памяти много и т.п.
Но мне на моей AMD K5 90MHz с 24Mb оперативы от этого не легче.


"KOI8-R или UTF-8?"
Отправлено dev , 26-Дек-04 14:09 
>Имхо это есть не проблема кодировки, а используемых шрифтов.

Нет. Шрифты юникодные уже есть и очень распространены.
Проблема с содержимым файлов.

>Хотелось бы посмотреть на полную юникод клавиатуру ;-)

А она есть :) Alt+... в крайнем случае.
А так, на обычной клаве, набираются практически все буквы западно-европейских алфавитов, надо только принцип знать.

>Имена файлов представляют, имхо, бОльшую проблему.
>Буквально вчера мне принесли дискету.
>На ней rar архив, названный русскими буквами(я так думаю в юникоде).
>Ладно, при копировании имя переконвертировалось в KOI8-R.
>Внутри архива доки тоже с русскими именами(тоже в юникоде) - страшные крякозяблы.
>Программами не открывается, переименовываться не хочет.

Ну это не проблемы юникода, а проблемы глючных программ.

А по поводу именования файлов: к примеру, есть документ "Долговая расписка Махмеда Махмедовича Аглы". Как его назвать латиницей? Как его потом искать?

>>А как ты думаешь, на сколько возрастет объем средней веб-странички, если ее
>>перевести из KOI8 в UTF-8? А если со сжатием?
>>Можно проверить, например, на этом треде. У меня получилось ~10%.
>
>Десять процентов - достаточно много для меня.

Т.е. у тебя при серфинге отключены картинки и ты ходишь в Инет через канал со сжатием?

>К тому же, есть сжатие - нет его.
>На конечном компьютере в памяти юникод символ всё равно 2 байта.
>Да, конечно, сейчас памяти много и т.п.
>Но мне на моей AMD K5 90MHz с 24Mb оперативы от этого
>не легче.

И насколько больше памяти требует твой браузер при просмотре юникодных страничек?


"KOI8-R или UTF-8?"
Отправлено Akademic , 26-Дек-04 14:33 
>>Имхо это есть не проблема кодировки, а используемых шрифтов.
>
>Нет. Шрифты юникодные уже есть и очень распространены.
>Проблема с содержимым файлов.

Да я не про отсутствие юникодных шрифтов, а про выбор шрифта, в котором есть соответствующие символы. То есть просто надо выбрать такой шрифт и писать.


>Ну это не проблемы юникода, а проблемы глючных программ.
Ну положим LinRAR не знает, да и не должен знать, что внутри его архива есть имена файлов в разных кодировках. Да ещё к тому же отличных от локали.

>А по поводу именования файлов: к примеру, есть документ "Долговая расписка Махмеда
>Махмедовича Аглы". Как его назвать латиницей? Как его потом искать?

Dolgovaya_raspiska_Mahmeda_Mahmedovicha_Agly   ;-)
Так и искать.
А лучше закидывать такие сведения в БД.

>Т.е. у тебя при серфинге отключены картинки и ты ходишь в Инет
>через канал со сжатием?

Да.

>И насколько больше памяти требует твой браузер при просмотре юникодных страничек?

Дай адрес юникодной странички - посмотрю.
А то пробежался по нескольким - всё koi8-r, cp1251, и даже IBM866.



"KOI8-R или UTF-8?"
Отправлено dev , 27-Дек-04 02:09 
>Да я не про отсутствие юникодных шрифтов, а про выбор шрифта, в
>котором есть соответствующие символы. То есть просто надо выбрать такой шрифт
>и писать.

Ну какой шрифт может быть в текстовом файле. Проблема именно с кодировкой.

>>Ну это не проблемы юникода, а проблемы глючных программ.
>Ну положим LinRAR не знает, да и не должен знать, что внутри
>его архива есть имена файлов в разных кодировках. Да ещё к
>тому же отличных от локали.

Точно. Поэтому надо везде использовать UTF-8 и проблем не будет.

>>А по поводу именования файлов: к примеру, есть документ "Долговая расписка Махмеда
>>Махмедовича Аглы". Как его назвать латиницей? Как его потом искать?
>
>Dolgovaya_raspiska_Mahmeda_Mahmedovicha_Agly   ;-)
>Так и искать.

А как гарантировать, что у всей фирмы будут одни и теже правила транслитерации? А у клиентов?

>А лучше закидывать такие сведения в БД.

БД еще сделать надо. И на дискетке ее особо не потаскаешь.

>>Т.е. у тебя при серфинге отключены картинки и ты ходишь в Инет
>>через канал со сжатием?
>
>Да.

Ок, сжимай bzip2-ом, разница на десятые доли процента (10212 и 10232 байт). Примечание: я догадываюсь о недостатках этого метода.

>>И насколько больше памяти требует твой браузер при просмотре юникодных страничек?
>
>Дай адрес юникодной странички - посмотрю.
>А то пробежался по нескольким - всё koi8-r, cp1251, и даже IBM866.

Этот тред, сохраненый в обоих кодировках:
http://www.26th.net/public/tmp/koi8.html
http://www.26th.net/public/tmp/utf8.html


"KOI8-R или UTF-8?"
Отправлено Akademic , 27-Дек-04 12:56 
>>>Ну это не проблемы юникода, а проблемы глючных программ.
>>Ну положим LinRAR не знает, да и не должен знать, что внутри
>>его архива есть имена файлов в разных кодировках. Да ещё к
>>тому же отличных от локали.
>
>Точно. Поэтому надо везде использовать UTF-8 и проблем не будет.

А я могу сказать: Точно. Поэтому надо везде использовать KOI8-R и проблем не будет. Или все имена файлов писать латиницей.

>>>А по поводу именования файлов: к примеру, есть документ "Долговая расписка Махмеда
>>>Махмедовича Аглы". Как его назвать латиницей? Как его потом искать?
>>
>>Dolgovaya_raspiska_Mahmeda_Mahmedovicha_Agly   ;-)
>>Так и искать.
>
>А как гарантировать, что у всей фирмы будут одни и теже правила
>транслитерации? А у клиентов?

Ну с правилами транслитерации не так всё сложно.
Можно ведь использовать правила, принятые в KOI8-R.
Тут всё дело в договорённости.

А вообще, мы находимся в переходном периоде. И писать имена файлов не латиницей не есть хорошо, т.к. у тех же клиентов может стоять вовсе не юникод.

>>А лучше закидывать такие сведения в БД.
>
>БД еще сделать надо. И на дискетке ее особо не потаскаешь.

Не лучшая идея таскать такую информацию как долговая расписка на дискете.
Так можно никогда не получить долг обратно. ;-)

>>>И насколько больше памяти требует твой браузер при просмотре юникодных страничек?
>>
>>Дай адрес юникодной странички - посмотрю.
>>А то пробежался по нескольким - всё koi8-r, cp1251, и даже IBM866.
>
>Этот тред, сохраненый в обоих кодировках:
>http://www.26th.net/public/tmp/koi8.html
>http://www.26th.net/public/tmp/utf8.html

PID USER          PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND
835 Akademic       9   0  3724 3720 1668 S  0.0  1.0   0:01.71 links          838 Akademic       9   0  1248 1244  948 S  0.0  0.3   0:00.01 links  

835 при переходе по utf8 ссылке
838 при переходе по koi8-r ссылке

Странно(для меня), но в обоих случаях при установке в настройках кодировки koi8-r русские буквы видны.    


"KOI8-R или UTF-8?"
Отправлено co6aka , 27-Дек-04 15:05 
Ага :) а ты коперни текст с этой странички... например в терминал где koi8 !!!

"KOI8-R или UTF-8?"
Отправлено Akademic , 27-Дек-04 15:39 
>Ага :) а ты коперни текст с этой странички... например в терминал
>где koi8 !!!

И что должно получиться?
У меня всё равно русские буквы видно.


"KOI8-R или UTF-8?"
Отправлено dev , 28-Дек-04 01:55 
>>Точно. Поэтому надо везде использовать UTF-8 и проблем не будет.
>
>А я могу сказать: Точно. Поэтому надо везде использовать KOI8-R и проблем
>не будет.

Ну если ты в KOI8 чего-нибудь интересное по китайски напишешь - то можно :)

>Или все имена файлов писать латиницей.

И с именами файлов не все так просто, как обсуждается ниже.
Но ведь есть еще и содержимое этих файлов. Зачем использовать разные подходы для имен файлов и их содержимого?

>Ну с правилами транслитерации не так всё сложно.
>Можно ведь использовать правила, принятые в KOI8-R.

Это какие? Для того-же китайского/французского/etc?

>А вообще, мы находимся в переходном периоде. И писать имена файлов не
>латиницей не есть хорошо, т.к. у тех же клиентов может стоять
>вовсе не юникод.

У клиентов, очень вероятно, стоит Винда, а она юникодные имена прекрасно понимает.
Но речь ведь не о том, стану ли я кому-то отдавать файл с нелатинским именем, а о том, нужно ли это в принципе. Нужно, иначе с тем же успехом можно нумеровать файлы.

>Не лучшая идея таскать такую информацию как долговая расписка на дискете.
>Так можно никогда не получить долг обратно. ;-)

Копию - можно.

> PID USER          
>PR  NI                    VIRT  RES  SHR S %CPU %MEM TIME+    COMMAND
>835 Akademic       9   0  3724 3720 1668 S  0.0  1.0  0:01.71 links        
>838 Akademic       9   0  1248 1244  948 S  0.0  0.3  0:00.01 links
>

Т.е. несколько байт из 24 мег. На мой взгляд, не существенно.


>Странно(для меня), но в обоих случаях при установке в настройках кодировки koi8-r
>русские буквы видны.

В принципе, браузер внутри должен преобразовывать все в одну кодировку и только потом показывать.


"KOI8-R или UTF-8?"
Отправлено Akademic , 28-Дек-04 13:15 

>Ну если ты в KOI8 чего-нибудь интересное по китайски напишешь - то
>можно :)

А оно надо?
Я, конечно, понимаю, что китайский язык - один из самых распространенных.
Но говорят на нем, в подавляющем большинстве случаев, китайцы.
Оставить им собственную - китайскую кодировку - и нет проблем.
Вам-то зачем этот китайский?

>И с именами файлов не все так просто, как обсуждается ниже.
>Но ведь есть еще и содержимое этих файлов. Зачем использовать разные подходы
>для имен файлов и их содержимого?

Какие же это разные подходы:
Имена файлов - латиницей(в KOI8-R (ну это неважно, ибо латиница во всех кодировках одинакова))
Содержимое файлов смешанное - английский+русский (в KOI8-R).

А насчет опять же китайского - много вы знаете людей проживающих в России, которые говорят по китайски, а тем паче на нем пишут?

Французский язык - тоже не пример.
В нем все буквы(за некоторым м.б. исключением) такие же как в английском.
Более того даже слова пишутся одинаково - различия в произношении.

>>Ну с правилами транслитерации не так всё сложно.
>>Можно ведь использовать правила, принятые в KOI8-R.
>
>Это какие? Для того-же китайского/французского/etc?

Для русского.
Ведь KOI8-R - кодировка для русского языка. Правда ведь? ;-)

>>А вообще, мы находимся в переходном периоде. И писать имена файлов не
>>латиницей не есть хорошо, т.к. у тех же клиентов может стоять
>>вовсе не юникод.
>
>У клиентов, очень вероятно, стоит Винда, а она юникодные имена прекрасно понимает.

Винда... винда... ви...
Что же теперь.
Если кто-то когда-то что-то сделал неправильно, то теперь эту ошибку надо экстраполировать в бесконечность.
Большенству народа не нужно писать на всех языках сразу.
Обычно ограничиваются двумя-тремя.
Один из них родной(допустим не латинского лагеря), другие два латинского(имхо в большенстве случаев).

А процент полиглотов, знающих все наречия стран Африки+мертвые языки, пусть сам извращается, раз умный такой.

А, вообще, я не есть жесткий ненавистник юникода.
Просто решить проблему - "дофигакодировок" можно и по другому.
Если у стула одна ножка длинее, не надо брать топор, разрубать в куски стул, а потом делать новый с большим количеством ножек.
С таким расчетом, что если снова одна ножка окажется длинее, стул будет стоять за счет большого числа запасных ножек.

К кодировкам: зачем уничтожать все и создавать ещё одну, когда можно оставить одну и отказаться от остальных.
Например, оставить KOI8-R. ;-)

А правда, что из 65536 символов в юникоде не используются 40000?
Если да, то там совсем разжирели.
Интеловцы вон бьются за каждый бит, дабы сделать код команды процессора короче. А тут такое.

>>Не лучшая идея таскать такую информацию как долговая расписка на дискете.
>>Так можно никогда не получить долг обратно. ;-)
>
>Копию - можно.

Копию можно таскать в виде SQL сценария.

>> PID USER          
>>PR  NI                    VIRT  RES  SHR S %CPU %MEM TIME+    COMMAND
>>835 Akademic       9   0  3724 3720 1668 S  0.0  1.0  0:01.71 links        
>>838 Akademic       9   0  1248 1244  948 S  0.0  0.3  0:00.01 links
>>
>
>Т.е. несколько байт из 24 мег. На мой взгляд, не существенно.

Ну нда.
А память идет не только на броузеры, но и на вирт. терминалы, bash, какой-нибудь mpg321,mc.
А при юникоде они тоже больше жрать станут.



"KOI8-R или UTF-8?"
Отправлено dev , 28-Дек-04 16:14 
>
>>Ну если ты в KOI8 чего-нибудь интересное по китайски напишешь - то
>>можно :)
>
>А оно надо?
>Я, конечно, понимаю, что китайский язык - один из самых распространенных.
>Но говорят на нем, в подавляющем большинстве случаев, китайцы.
>Оставить им собственную - китайскую кодировку - и нет проблем.
>Вам-то зачем этот китайский?

Мне, к примеру, немецкий нужен. Я знаю людей, говорящих (и пишущих) на японском, французском, арабском, украинском, китайском, испанском, хинди, вьетнамском. Какую кодировку им выбрать?

>>И с именами файлов не все так просто, как обсуждается ниже.
>>Но ведь есть еще и содержимое этих файлов. Зачем использовать разные подходы
>>для имен файлов и их содержимого?
>
>Какие же это разные подходы:
>Имена файлов - латиницей(в KOI8-R (ну это неважно, ибо латиница во всех
>кодировках одинакова))
>Содержимое файлов смешанное - английский+русский (в KOI8-R).

Ну так почему содержимое файла тоже латиницей не записывать? Проблем с кодировками никаких.

>А насчет опять же китайского - много вы знаете людей проживающих в
>России, которые говорят по китайски, а тем паче на нем пишут?

А что, кроме России других стран нет?

>Французский язык - тоже не пример.
>В нем все буквы(за некоторым м.б. исключением) такие же как в английском.

Почти - не считается.

>>>Ну с правилами транслитерации не так всё сложно.
>>>Можно ведь использовать правила, принятые в KOI8-R.
>>
>>Это какие? Для того-же китайского/французского/etc?
>
>Для русского.
>Ведь KOI8-R - кодировка для русского языка. Правда ведь? ;-)

Ну там в этом и проблема.

>Винда... винда... ви...
>Что же теперь.
>Если кто-то когда-то что-то сделал неправильно, то теперь эту ошибку надо экстраполировать
>в бесконечность.

Американцы сделали ошибку при создании ASCII - они не знали о существовании других алфавитов. КОИ была сделана для исправления этой ошибки в частном случае. Ну так зачем эту ошибку "экстраполировать в бесконечность"?

>Большенству народа не нужно писать на всех языках сразу.
>Обычно ограничиваются двумя-тремя.
>Один из них родной(допустим не латинского лагеря), другие два латинского(имхо в большенстве
>случаев).

Нет. Я знаю несколько сот тысячь примеров, когда это не так.

>К кодировкам: зачем уничтожать все и создавать ещё одну, когда можно оставить
>одну и отказаться от остальных.
>Например, оставить KOI8-R. ;-)

Возвращаемся к китайскому...

>>>Не лучшая идея таскать такую информацию как долговая расписка на дискете.
>>>Так можно никогда не получить долг обратно. ;-)
>>
>>Копию - можно.
>
>Копию можно таскать в виде SQL сценария.

Ухожу, ухожу.

>Ну нда.
>А память идет не только на броузеры, но и на вирт. терминалы,
>bash, какой-нибудь mpg321,mc.
>А при юникоде они тоже больше жрать станут.

Переставь на юникод и посмотри, насколько больше памяти используется.


"KOI8-R или UTF-8?"
Отправлено Akademic , 28-Дек-04 16:53 
>Мне, к примеру, немецкий нужен. Я знаю людей, говорящих (и пишущих) на
>японском, французском, арабском, украинском, китайском, испанском, хинди, вьетнамском. Какую кодировку им
>выбрать?

Эти люди одновременно на всех этих языках пишут?
Представляю себе какой-нибудь отчёт, написанный на смеси японского, французскго, арабскго, украинскго, китайскго, испанскго, хинди и вьетнамскго.
Повторяю: В одном тексте более двух языков одновременно - не нужно.

А по-немецки можно и стандартной латиницей(сам писал).
С умлаутами, конечно, тяжко, но выход найти можно(и он не utf8).

>Ну так почему содержимое файла тоже латиницей не записывать? Проблем с кодировками
>никаких.

Если для РУССКОГО теккста будет одна KOI8-R.
Проблем с кодировками тоже не будет.

>>А насчет опять же китайского - много вы знаете людей проживающих в
>>России, которые говорят по китайски, а тем паче на нем пишут?
>
>А что, кроме России других стран нет?

Это проблемы "других стран".
Каждой стране по своей кодировке! ;-)


>>Винда... винда... ви...
>>Что же теперь.
>>Если кто-то когда-то что-то сделал неправильно, то теперь эту ошибку надо экстраполировать
>>в бесконечность.
>
>Американцы сделали ошибку при создании ASCII - они не знали о существовании
>других алфавитов. КОИ была сделана для исправления этой ошибки в частном
>случае. Ну так зачем эту ошибку "экстраполировать в бесконечность"?

UNIX-подход, кстати, "Для каждой задачи - свой собственный совершенный инструмент."
KOI8-R для русского, ISO8859-15 - для европы, какая-нибудь ISO2022-CN - для китайцев.
Зачем нам молотко-ножницы-плоскогубцы-микроволновка, которой можно ещё и в ушах ковырять.
Фильм "Полицейский из Беверли Хиллз" смотрел?
Универсальность - не есть учшее решение.
Универсальные решения не оптимальны и содержат в себе много лишнего.
И нужны, в основном для абстрактных, теоретических случаев.
На практике, как правило используют отдельно взятое частное решение.

>>Большенству народа не нужно писать на всех языках сразу.
>>Обычно ограничиваются двумя-тремя.
>>Один из них родной(допустим не латинского лагеря), другие два латинского(имхо в большенстве
>>случаев).
>
>Нет. Я знаю несколько сот тысячь примеров, когда это не так.

Несколько сот тысяч людей пишущих сочинения на пяти языках сразу?

>>К кодировкам: зачем уничтожать все и создавать ещё одну, когда можно оставить
>>одну и отказаться от остальных.
>>Например, оставить KOI8-R. ;-)
>
>Возвращаемся к китайскому...

Дался вам этот китайский...
Здесь речь о русских кодировках.

>>Ну нда.
>>А память идет не только на броузеры, но и на вирт. терминалы,
>>bash, какой-нибудь mpg321,mc.
>>А при юникоде они тоже больше жрать станут.
>
>Переставь на юникод и посмотри, насколько больше памяти используется.

Нет уж, увольте.
"Нас и здесь неплохо кормят" ((с) Кот из мультика про попугая)
Факт в том, что больше, а на сколько это уже другой разговор.



"KOI8-R или UTF-8?"
Отправлено dev , 28-Дек-04 20:16 
>>Мне, к примеру, немецкий нужен. Я знаю людей, говорящих (и пишущих) на
>>японском, французском, арабском, украинском, китайском, испанском, хинди, вьетнамском. Какую кодировку им
>>выбрать?
>
>Эти люди одновременно на всех этих языках пишут?
>Представляю себе какой-нибудь отчёт, написанный на смеси японского, французскго, арабскго, украинскго, китайскго,
>испанскго, хинди и вьетнамскго.
>Повторяю: В одном тексте более двух языков одновременно - не нужно.

Во первых, нужно. Показать книжку на четырех?
Во вторых, если эти два языка не укладываются в латинский алфавит, то какую кодировку использовать?

>А по-немецки можно и стандартной латиницей(сам писал).
>С умлаутами, конечно, тяжко, но выход найти можно(и он не utf8).

Без умляутов можно. Также, как и русский латиницей.

>>Ну так почему содержимое файла тоже латиницей не записывать? Проблем с кодировками
>>никаких.
>
>Если для РУССКОГО теккста будет одна KOI8-R.
>Проблем с кодировками тоже не будет.

1) она уже не одна
2) почему только РУССКИЙ?

>>>А насчет опять же китайского - много вы знаете людей проживающих в
>>>России, которые говорят по китайски, а тем паче на нем пишут?
>>
>>А что, кроме России других стран нет?
>
>Это проблемы "других стран".
>Каждой стране по своей кодировке! ;-)

Зачем?

>UNIX-подход, кстати, "Для каждой задачи - свой собственный совершенный инструмент."
>KOI8-R для русского, ISO8859-15 - для европы, какая-нибудь ISO2022-CN - для китайцев.

Зачем?

>Зачем нам молотко-ножницы-плоскогубцы-микроволновка, которой можно ещё и в ушах ковырять.
>Фильм "Полицейский из Беверли Хиллз" смотрел?
>Универсальность - не есть учшее решение.
>Универсальные решения не оптимальны и содержат в себе много лишнего.
>И нужны, в основном для абстрактных, теоретических случаев.
>На практике, как правило используют отдельно взятое частное решение.

Нет.

>Несколько сот тысяч людей пишущих сочинения на пяти языках сразу?

Да. Русский+немецкий, русский+иврит.

>Дался вам этот китайский...
>Здесь речь о русских кодировках.

Где? Речь была о выборе "обычного пользователя". Его родной язык, знание других языков и страна проживания не конкретизировались.


"KOI8-R или UTF-8?"
Отправлено co6aka , 29-Дек-04 15:20 
Хотелось бы упомянуть что в koi8-r нет некоторых символов(которые щас нужны), а в cp1251(винда, винда, винда...) есть. Ну что будет делать обычный пользователь(как вариант знак евро)...?
IMHO: Потом обмен информацией сейчас велик и нет такого садика RU, а есть сообщество с разными языками. И полиглоты тут не при чем это современные требования интернет сообщества..

"KOI8-R или UTF-8?"
Отправлено co6aka , 29-Дек-04 15:25 
PS: :) ну например человек общается с малазийцем... пусть на русском. Но вот ведь хочется здрасте :) написать на малазийском, поздароваться с человеком на его родном языке... с соответсявии с его культурой... и что? это ограничивает!

"KOI8-R или UTF-8?"
Отправлено Akademic , 29-Дек-04 23:22 
Ну всё люди.
У меня отрезали халявный инет и больше тут я распинаться не буду(хотя доводы ещё есть).
Аналогичная тема есть по http://www.linuxforum.ru/index.php?showtopic=1680
Почитайте там много умного.