The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]




Версия для распечатки Пред. тема | След. тема
Новые ответы [ Отслеживать ]
Помогите определить кодировку, !*! Anatoliy, 23-Авг-07, 17:18  [смотреть все]
Доброго дня.

Есть некая прога, которая сохраняет русский текст в неизветсной для меня кодировке. Изначально русский текст - ЮзерТест, прога сохранила в следующем формате (Hex)

C3 9E C3 A7 C3 A5 C3 B0 C3 92 C3 A5 C3 B1 C3 B2
Если убрать все символы С3, то оставшиеся символы будут соответствовать кодировке 866, за исключением сиволов выше B0 (hex). Но если к кодам сивола выше B0 прибавить 30 (hex), то и оставшиеся буквенные символы будут соответствовать изначальному тексту.

Удалив символы C3 и прибавив 30 выполнил:
iconv -f 866 -t KOI8-R k.txt
получил изначальный текст.

Буду очень признателен, если Вы мне скажите что это за кодировка такая.

  • Помогите определить кодировку, !*! vic, 19:03 , 23-Авг-07 (1)
    >[оверквотинг удален]
    >за исключением сиволов выше B0 (hex). Но если к кодам сивола
    >выше B0 прибавить 30 (hex), то и оставшиеся буквенные символы будут
    >соответствовать изначальному тексту.
    >
    >Удалив символы C3 и прибавив 30 выполнил:
    >iconv -f 866 -t KOI8-R k.txt
    >получил изначальный текст.
    >
    >Буду очень признателен, если Вы мне скажите что это за кодировка такая.
    >

    У вас кодировка koi8-r в системе? (судя потому что в кои перекодируете..)

    Тогда попробуйте так:
    $ cat strange_charset.txt | iconv -f UTF8 -t ISO_8859-1 | iconv -f CP1251 -t koi8-r

    То что в странной кодировке в два раза больше байт указывает на UTF8 (для русского в UTF8 используется два байта), но это испорченный UTF-8, так как программа произвела перекодировку из ISO-8859-1 (байты 0xС3) в UTF-8 текста который на самом деле в CP1251.

    Т.е. программа некорректно перекодирует или ей на вход текст полается в неверной кодировке.

    • Помогите определить кодировку, !*! Anatoliy, 11:15 , 24-Авг-07 (2)
      >>
      >>Буду очень признателен, если Вы мне скажите что это за кодировка такая.
      >>
      >
      >У вас кодировка koi8-r в системе? (судя потому что в кои перекодируете..)
      >

      Да, у меня в кодировка KOI8-R.

      >
      >Тогда попробуйте так:
      >$ cat strange_charset.txt | iconv -f UTF8 -t ISO_8859-1 | iconv -f
      >CP1251 -t koi8-r
      >

      Снимаю шляпу. Предложенный Вами вариант подошел. Спасибо.

      >То что в странной кодировке в два раза больше байт указывает на
      >UTF8 (для русского в UTF8 используется два байта), но это испорченный
      >UTF-8, так как программа произвела перекодировку из ISO-8859-1 (байты 0xС3) в
      >UTF-8 текста который на самом деле в CP1251.
      >Т.е. программа некорректно перекодирует или ей на вход текст полается в неверной
      >кодировке.

      И тут Вы в точку попали. В доке к этой проге написано: Using non-ISO-Latin 1 characters greater than 127 ... can cause directory database errors.
      На самом деле данные она записывает, но другие приложения эти данные прочитать не могут.
      Спасибо еще раз.

    • Помогите определить кодировку, !*! Ray Dudu, 11:47 , 27-Авг-07 (3)
    • Помогите определить кодировку, !*! bw, 11:52 , 13-Мрт-09 (5)
      vic

      > То что в странной кодировке в два раза больше байт указывает на
      > UTF8 (для русского в UTF8 используется два байта), но это испорченный
      > UTF-8, так как программа произвела перекодировку из ISO-8859-1 (байты 0xС3) в
      > UTF-8 текста который на самом деле в CP1251.

      Спасибо, выручил. sound-juicer (gnome) начудил.

      p.s. В google искал по c3 :-).

      ..bw




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру