URL: https://www.opennet.me/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID9
Нить номер: 4161
[ Назад ]

Исходное сообщение
"Perl question"

Отправлено Alexandre , 07-Апр-05 21:59 
Гуру Perl, простите, пожалуйста, за дурацкий/нагловатый вопрос/просьбу: есть ли готовый скрипт или что подобное?
Нужен скрипт, который на вход принимает HTML и, используя HTML-Tree, приводит этот самый ввод в более-менее нормальный вид.

Как я понимаю, это должно выглядеть примерно так (см. ниже).
Две проблемы: как сделать, чтобы содержимое (HTML_CONTENT) читалось из стандартного ввода и чтобы результат выдавался на стандартный вывод, а ошибки на стандартный error.

Помогите, пожалуйста, а то я в Perl, как свинья в апельсинах...

==================================
require HTML::Parser;
use HTML::Parser();

$p = HTML::Parser->new();
$p->parse(HTML_CONTENT);
$p->closing_plaintext(true);


Содержание

Сообщения в этом обсуждении
"Perl question"
Отправлено allez , 08-Апр-05 07:18 
Встречный вопрос: а вам обязательно писать самому скрипт на Perl?
Дело в том, что с поставленной вами задачей прекрасно справляются
Lynx/Links с опцией -dump.

man lynx:
>       -dump  dumps the formatted output of the default  document
>              or  one  specified  on the command line to standard
>              output.  This can be used in the following way:
>
>              lynx -dump http://www.trill-home.com/lynx.html

links --help:
> -dump
>  Write a plain-text version of the given HTML document to
>  stdout.

Это не то, что вам нужно?


"Perl question"
Отправлено Alexandre , 08-Апр-05 09:06 
>Встречный вопрос: а вам обязательно писать самому скрипт на Perl?
>Дело в том, что с поставленной вами задачей прекрасно справляются
>Lynx/Links с опцией -dump.
<skipped>
>Это не то, что вам нужно?

Видимо, плохо выразился... =(
Дело в том, что мне нужен не дамп HTML, а приведение кривого HTML в более-менее нормальный вид.
Если я правильно понял, Perl's HTML::Parser пытается парсить также как и Internet Explorer, и, стало быть может выдать почти XHTML в результате своей деятельности. Вот именно это и интересно...