>>Добрый день. Скажите, как из хтмлной странички вырезать все теги?
>>То есть,к примеру, приходит хтмл-страничка по почте. Нужно чтобы на сервере эта
>>страника обработалась, и к юзеру вместо странички с тегами попал один
>>текст.
>>Пробовал прикрутить lynx -dump file.html. На выходе текст, НО вместо русских букв
>>латинская транслитерация.
>>Сейчас пробую собственноручно написанный скрипт на Питоне, НО как заставить Питон понимать, что строку начинающуюся с < и кончающуюся на >, нужно убивать? Сейчас, скрипт ищет в тексте странички слова script applet object и заменяет на font.
>>В общем, help.
>может это поможет (из man lynx):
>
> -assume_charset=MIMEname
>
> charset for documents that don't specify it.
>
> -assume_local_charset=MIMEname
>
> charset assumed for local files.
>
> -assume_unrec_charset=MIMEname
>
> use this instead of unrecognized charsets.
Да, но Линкс убивает и служебную информацию.
|