Добрый день коллеги.
Некоторое время назад занявшись построением системы почтового архива я столкнулся с ОЧЕНЬ неприятной проблемый:
Темы письма выглядят:
Re: =?KOI8-R?Q?=F3=C5=D7=C1=D3=D4=CF=D0=CF=CC=D8,_=D5?=
=?KOI8-R?Q?=C4=C1=CC=C5=CE=CE=C1=D1_=D0=CC=CF=DD=C1=C4=CB=C1,_3/=D5=CC._?=
=?KOI8-R?Q?=E2._=ED=CF=D2=D3=CB=C1=D1,?= 21/ |
Это проблемы не программы - в таком виде письма попадают ко мне на анализ. ;((
Не известно ли Вам метода по преобразованию этого бреда в нечто удобоваримое.
Базовый язык - python.
Но буду благодарен, если Вы мне поможете решить данную проблемы в любом другом языке.
>Re: =?KOI8-R?Q?=F3=C5=D7=C1=D3=D4=CF=D0=CF=CC=D8,_=D5?=
> =?KOI8-R?Q?=C4=C1=CC=C5=CE=CE=C1=D1_=D0=CC=CF=DD=C1=C4=CB=C1,_3/=D5=CC._?=
> =?KOI8-R?Q?=E2._=ED=CF=D2=D3=CB=C1=D1,?= 21/ |
>Это проблемы не программы - в таком виде письма попадают ко мне
>на анализ. ;((
>Не известно ли Вам метода по преобразованию этого бреда в нечто удобоваримое.Тут написано "Севастополь, удаленная площадка, 3/ул. Б. Морская"
Это называется Content-Transfer-Encoding: Quoted-Printable. См, например, http://www.ietf.org/rfc/rfc2045.txt, секция 6.7.
Это еще пол беды, вот когда начнут попадаться письма с 8-ми битным текстом в заголовке (не обязательно в теме) и без указания кодировки, то вот это весело. Не знаю как в python, а на perl я использовал MIME::QuotedPrint, MIME::Base64 для разбора того, что Вы привели и Lingua::DetectCharset для "угадывания" кодировки. Lingua::DetectCharset можно найти на cpan.org Работает достаточно надежно: на 20000 писем - 10-20 "сомнительных" кодировок.
Всем большое спасибо