The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

Сравнение и преобразование русскоязычных символьных кодировок

12.05.2004 00:45

В Internet материалов по перекодировке символов между русскими кодировками на удивление мало. В данной статье автором предпринята попытка заполнить информационный вакуум: обобщить собственный опыт, систематизировать и построить как можно более полное соответствие между символами русского алфавита и специальными символами КОИ8, win-1251, CP866, ISO8859-5.

  1. Главная ссылка к новости (http://www.freelance.pp.ru/art...)
Автор новости: Foxy S. Aries
Лицензия: CC BY 3.0
Короткая ссылка: https://opennet.ru/3833-charset
Ключевые слова: charset, unicode, cp1251, koi8-r
При перепечатке указание ссылки на opennet.ru обязательно


Обсуждение (12) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.1, Аноним (1), 10:49, 12/05/2004 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Интересно. Автор не знает про iconv или принципиально не желает ею пользоваться?
     
     
  • 2.3, Автор (?), 12:38, 12/05/2004 [^] [^^] [^^^] [ответить]  
  • +/
    >Интересно. Автор не знает про iconv или принципиально не желает ею пользоваться?
    >
    Знаю... Но принципально не желаю пользоваться. Поясню почему. У себя на сервере, естественно, могу творить, что хочу - iconv прокатывает. Тут согласен.
    У провайдера есть свой админ - что ему в голову взбредет - никто не знает. По опыту скажу, что для хостинга _на_стороне_ проще иметь свои инструметы, пусть даже кривые, чем творить разборки со службой поддержки. Просто-напросто много раз обжигался (и наблюдал как другие обжигаются) на доверии к модулям.
    Ну и субъективно, конечно, терпеть не могу программы, которым нужно то, се, пятое, десятое: чтобы слолжить 2 и 2 требуется установить 10 модулей (утрирую), хотя, кроме как для данной программы они нигде не нужны.
     
     
  • 3.5, uldus (ok), 12:57, 12/05/2004 [^] [^^] [^^^] [ответить]  
  • +/
    После кругового хождения по граблям при конвертации UNICODE закерся не использовать iconv, сейчас эти проблемы уже давно исправлены, но первое впечатление формирует общее отношение.


    PS. Нифига, исправляют одно - портят другое:
    http://www.google.com/search?hl=en&q=iconv+unicode+bug

    "iconv failure when compiling file which is not valid UTF-8"
    http://lists.ximian.com/archives/public/mono-bugs/2002-April/000481.html

    Гады, сколько эти молчаливые падения крови съели..... Могу только сказать, что iconv можно использовать только когда на 100верен, что UNICODE представление валидно.

     

  • 1.2, Lamr (?), 12:22, 12/05/2004 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Может и не знает, но это не повод для особой критики. Я вот тоже написал свой рекодер на Си, когда он потребовался. Вылизывал почти год. Сначало он только koi2win рекодировал - для закачки на сайт. Потом дополнил alt. По потребности, в общем. Потом на нем учился строить порт. Теперь это порт для FreeBSD. Включить его в порты отказали - сослались на существующие. Ну и фак: мой и быстрее и удобнее. Не хотите - не надо.
      Я, кстати, так и не добрался до спецсимволов. Спасибо автору, я у него стырю таблицу для них.
      А удовольствия сколько?
      10x
     
  • 1.4, Дмитрий Ю. Карпов (?), 12:50, 12/05/2004 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    http://apache.lexa.ru
     
  • 1.6, Peter (??), 16:41, 12/05/2004 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Ни разу не подводил.
    Вы бы лучше про автораспознавание замутили --- у меня модуль cyrillic иногда глючит.
     
     
  • 2.12, Evgueni (?), 17:31, 15/05/2004 [^] [^^] [^^^] [ответить]  
  • +/
    Можно глянуть сюда:

    http://kedr.inp.nsk.su/~baldin/Cyrillic-HOWTO-russian/ch09s03.html

    Утилитка 2k - мне удобно.

    С уважением Евгений

     

  • 1.7, Автор (?), 17:48, 12/05/2004 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Ну наро-о-од! Про автораспознавание. Господа, посмотрите на таблицы кодов. В моей статье. Теперь очень-очень сложные вопросы: не с заглавной ли буквы в любом языке начинается предложение? многими символами предложение может оканчиваться? не строчными ли буквами пишутся слова в предложении?

    Хотя, если кто еще попросит, и про автораспознавание напишу.

     
  • 1.8, Автор (?), 17:54, 12/05/2004 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Хм. Вопрос к критикам: многие ли из программ могут делать упомянутые в статье составные замены - когда отсутствующий символ (в КОИ нет многоточия, например) заменяется с помощью нескольких символов?
     
  • 1.9, Аноним (1), 09:10, 13/05/2004 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    http://tony2001.phpclub.net/detect_charset/
     
     
  • 2.10, Peter (??), 14:21, 13/05/2004 [^] [^^] [^^^] [ответить]  
  • +/
    Как просто. Я имел в виду по словарю там порыться, чтобы все прописные/все строчные и без знаков препинания тоже работали. А многоточия --- ни разу в контент-сайтах тех же не видел. И прочие "пропущенные" знаки --- это теховоды любят с такими мелочами ковыряться.


     

  • 1.11, Игорь Николаев (?), 02:06, 14/05/2004 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    #!/usr/bin/perl -w
    use strict;
    my $code_from = shift @ARGV;
    my $code_to = shift @ARGV;
    binmode STDIN, ":encoding($code_from)";
    binmode STDOUT, ":encoding($code_to)";
    undef $/; print <>;
     
     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Партнёры:
    PostgresPro
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2024 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру