URL: https://www.opennet.me/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID3
Нить номер: 3701
[ Назад ]

Исходное сообщение
"OpenNews: Сравнение и преобразование русскоязычных символьных кодировок"
Отправлено opennews , 12-Май-04 10:49

В Internet материалов по перекодировке символов между русскими кодировками на удивление мало. В данной статье автором предпринята попытка заполнить информационный вакуум: обобщить собственный опыт, систематизировать и построить как можно более полное соответствие между символами русского алфавита и специальными символами КОИ8, win-1251, CP866, ISO8859-5.
URL: http://www.freelance.pp.ru/articles/recoding.shtml
Новость: http://www.opennet.me/opennews/art.shtml?num=3833

Содержание

Сравнение и преобразование русскоязычных символьных кодировок,Аноним, 10:49 , 12-Май-04
- Сравнение и преобразование русскоязычных символьных кодирово...,Автор, 12:38 , 12-Май-04
  - iconv,uldus, 12:57 , 12-Май-04
Сравнение и преобразование русскоязычных символьных кодировок,Lamr, 12:22 , 12-Май-04
А разве Тутубалин на русском Apache не решил эту проблему?,Дмитрий Ю. Карпов, 12:50 , 12-Май-04
А некоторые ещё используют GNU Recode,Peter, 16:41 , 12-Май-04
- А некоторые ещё используют GNU Recode,Evgueni, 17:31 , 15-Май-04
Сравнение и преобразование русскоязычных символьных кодировок,Автор, 17:48 , 12-Май-04
Сравнение и преобразование русскоязычных символьных кодировок,Автор, 17:54 , 12-Май-04
Сравнение и преобразование русскоязычных символьных кодировок,Аноним, 09:10 , 13-Май-04
- Сравнение и преобразование русскоязычных символьных кодирово...,Peter, 14:21 , 13-Май-04
Сравнение и преобразование русскоязычных символьных кодировок,Игорь Николаев, 02:06 , 14-Май-04

Сообщения в этом обсуждении

"Сравнение и преобразование русскоязычных символьных кодировок"
Отправлено Аноним , 12-Май-04 10:49

Интересно. Автор не знает про iconv или принципиально не желает ею пользоваться?

"Сравнение и преобразование русскоязычных символьных кодирово..."
Отправлено Автор , 12-Май-04 12:38

>Интересно. Автор не знает про iconv или принципиально не желает ею пользоваться?
>
Знаю... Но принципально не желаю пользоваться. Поясню почему. У себя на сервере, естественно, могу творить, что хочу - iconv прокатывает. Тут согласен.
У провайдера есть свой админ - что ему в голову взбредет - никто не знает. По опыту скажу, что для хостинга _на_стороне_ проще иметь свои инструметы, пусть даже кривые, чем творить разборки со службой поддержки. Просто-напросто много раз обжигался (и наблюдал как другие обжигаются) на доверии к модулям.
Ну и субъективно, конечно, терпеть не могу программы, которым нужно то, се, пятое, десятое: чтобы слолжить 2 и 2 требуется установить 10 модулей (утрирую), хотя, кроме как для данной программы они нигде не нужны.

"iconv"
Отправлено uldus , 12-Май-04 12:57

После кругового хождения по граблям при конвертации UNICODE закерся не использовать iconv, сейчас эти проблемы уже давно исправлены, но первое впечатление формирует общее отношение.

PS. Нифига, исправляют одно - портят другое:
http://www.google.com/search?hl=en&q=iconv+unicode+bug
"iconv failure when compiling file which is not valid UTF-8"
http://lists.ximian.com/archives/public/mono-bugs/2002-April...
Гады, сколько эти молчаливые падения крови съели..... Могу только сказать, что iconv можно использовать только когда на 100% уверен, что UNICODE представление валидно.

"Сравнение и преобразование русскоязычных символьных кодировок"
Отправлено Lamr , 12-Май-04 12:22

Может и не знает, но это не повод для особой критики. Я вот тоже написал свой рекодер на Си, когда он потребовался. Вылизывал почти год. Сначало он только koi2win рекодировал - для закачки на сайт. Потом дополнил alt. По потребности, в общем. Потом на нем учился строить порт. Теперь это порт для FreeBSD. Включить его в порты отказали - сослались на существующие. Ну и фак: мой и быстрее и удобнее. Не хотите - не надо.
  Я, кстати, так и не добрался до спецсимволов. Спасибо автору, я у него стырю таблицу для них.
  А удовольствия сколько?
  10x

"А разве Тутубалин на русском Apache не решил эту проблему?"
Отправлено Дмитрий Ю. Карпов , 12-Май-04 12:50

http://apache.lexa.ru

"А некоторые ещё используют GNU Recode"
Отправлено Peter , 12-Май-04 16:41

Ни разу не подводил.
Вы бы лучше про автораспознавание замутили --- у меня модуль cyrillic иногда глючит.

"А некоторые ещё используют GNU Recode"
Отправлено Evgueni , 15-Май-04 17:31

Можно глянуть сюда:
http://kedr.inp.nsk.su/~baldin/Cyrillic-HOWTO-russian/ch09s0...
Утилитка 2k - мне удобно.
С уважением Евгений

"Сравнение и преобразование русскоязычных символьных кодировок"
Отправлено Автор , 12-Май-04 17:48

Ну наро-о-од! Про автораспознавание. Господа, посмотрите на таблицы кодов. В моей статье. Теперь очень-очень сложные вопросы: не с заглавной ли буквы в любом языке начинается предложение? многими символами предложение может оканчиваться? не строчными ли буквами пишутся слова в предложении?
Хотя, если кто еще попросит, и про автораспознавание напишу.

"Сравнение и преобразование русскоязычных символьных кодировок"
Отправлено Автор , 12-Май-04 17:54

Хм. Вопрос к критикам: многие ли из программ могут делать упомянутые в статье составные замены - когда отсутствующий символ (в КОИ нет многоточия, например) заменяется с помощью нескольких символов?

"Сравнение и преобразование русскоязычных символьных кодировок"
Отправлено Аноним , 13-Май-04 09:10

http://tony2001.phpclub.net/detect_charset/

"Сравнение и преобразование русскоязычных символьных кодирово..."
Отправлено Peter , 13-Май-04 14:21

Как просто. Я имел в виду по словарю там порыться, чтобы все прописные/все строчные и без знаков препинания тоже работали. А многоточия --- ни разу в контент-сайтах тех же не видел. И прочие "пропущенные" знаки --- это теховоды любят с такими мелочами ковыряться.

"Сравнение и преобразование русскоязычных символьных кодировок"
Отправлено Игорь Николаев , 14-Май-04 02:06

#!/usr/bin/perl -w
use strict;
my $code_from = shift @ARGV;
my $code_to = shift @ARGV;
binmode STDIN, ":encoding($code_from)";
binmode STDOUT, ":encoding($code_to)";
undef $/; print <>;