The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

форумы  помощь  поиск  регистрация  майллист  ВХОД  слежка  RSS
"Вырезать теги."
Вариант для распечатки Архивированная нить - только для чтения! 
Пред. тема | След. тема 
Форумы OpenNET: Виртуальная конференция (Public)
Изначальное сообщение [Проследить за развитием треда]

"Вырезать теги."
Сообщение от pantera emailИскать по авторуВ закладки on 29-Авг-02, 16:27  (MSK)
Добрый день. Скажите, как из хтмлной странички вырезать все теги?
То есть,к примеру, приходит хтмл-страничка по почте. Нужно чтобы на сервере эта страника обработалась, и к юзеру вместо странички с тегами попал один текст.
Пробовал прикрутить lynx -dump file.html. На выходе текст, НО вместо русских букв латинская транслитерация.
Сейчас пробую собственноручно написанный скрипт на Питоне, НО как заставить Питон понимать, что строку начинающуюся с < и кончающуюся на >, нужно убивать? Сейчас, скрипт ищет в тексте странички слова script applet object  и заменяет на font.
В общем, help.
  Рекомендовать в FAQ | Cообщить модератору | Наверх

 Оглавление

Индекс форумов | Темы | Пред. тема | След. тема
Сообщения по теме

1. "RE: Вырезать теги."
Сообщение от qq Искать по авторуВ закладки on 29-Авг-02, 17:35  (MSK)
>Добрый день. Скажите, как из хтмлной странички вырезать все теги?
>То есть,к примеру, приходит хтмл-страничка по почте. Нужно чтобы на сервере эта
>страника обработалась, и к юзеру вместо странички с тегами попал один
>текст.
>Пробовал прикрутить lynx -dump file.html. На выходе текст, НО вместо русских букв
>латинская транслитерация.
>Сейчас пробую собственноручно написанный скрипт на Питоне, НО как заставить Питон понимать, что строку начинающуюся с < и кончающуюся на >, нужно убивать? Сейчас, скрипт ищет в тексте странички слова script applet object  и заменяет на font.
>В общем, help.
может это поможет (из man lynx):

       -assume_charset=MIMEname
              charset for documents that don't specify it.

       -assume_local_charset=MIMEname
              charset assumed for local files.

       -assume_unrec_charset=MIMEname
              use this instead of unrecognized charsets.

  Рекомендовать в FAQ | Cообщить модератору | Наверх

2. "RE: Вырезать теги."
Сообщение от pantera Искать по авторуВ закладки on 30-Авг-02, 15:34  (MSK)
>>Добрый день. Скажите, как из хтмлной странички вырезать все теги?
>>То есть,к примеру, приходит хтмл-страничка по почте. Нужно чтобы на сервере эта
>>страника обработалась, и к юзеру вместо странички с тегами попал один
>>текст.
>>Пробовал прикрутить lynx -dump file.html. На выходе текст, НО вместо русских букв
>>латинская транслитерация.
>>Сейчас пробую собственноручно написанный скрипт на Питоне, НО как заставить Питон понимать, что строку начинающуюся с < и кончающуюся на >, нужно убивать? Сейчас, скрипт ищет в тексте странички слова script applet object  и заменяет на font.
>>В общем, help.
>может это поможет (из man lynx):
>
>       -assume_charset=MIMEname
>            
>  charset for documents that don't specify it.
>
>       -assume_local_charset=MIMEname
>            
>  charset assumed for local files.
>
>       -assume_unrec_charset=MIMEname
>            
>  use this instead of unrecognized charsets.
Да, но Линкс убивает и служебную информацию.


  Рекомендовать в FAQ | Cообщить модератору | Наверх


Удалить

Индекс форумов | Темы | Пред. тема | След. тема
Пожалуйста, прежде чем написать сообщение, ознакомьтесь с данными рекомендациями.




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2025 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру