Гуру Perl, простите, пожалуйста, за дурацкий/нагловатый вопрос/просьбу: есть ли готовый скрипт или что подобное?
Нужен скрипт, который на вход принимает HTML и, используя HTML-Tree, приводит этот самый ввод в более-менее нормальный вид.Как я понимаю, это должно выглядеть примерно так (см. ниже).
Две проблемы: как сделать, чтобы содержимое (HTML_CONTENT) читалось из стандартного ввода и чтобы результат выдавался на стандартный вывод, а ошибки на стандартный error.Помогите, пожалуйста, а то я в Perl, как свинья в апельсинах...
==================================
require HTML::Parser;
use HTML::Parser();$p = HTML::Parser->new();
$p->parse(HTML_CONTENT);
$p->closing_plaintext(true);
Встречный вопрос: а вам обязательно писать самому скрипт на Perl?
Дело в том, что с поставленной вами задачей прекрасно справляются
Lynx/Links с опцией -dump.man lynx:
> -dump dumps the formatted output of the default document
> or one specified on the command line to standard
> output. This can be used in the following way:
>
> lynx -dump http://www.trill-home.com/lynx.htmllinks --help:
> -dump
> Write a plain-text version of the given HTML document to
> stdout.Это не то, что вам нужно?
>Встречный вопрос: а вам обязательно писать самому скрипт на Perl?
>Дело в том, что с поставленной вами задачей прекрасно справляются
>Lynx/Links с опцией -dump.
<skipped>
>Это не то, что вам нужно?Видимо, плохо выразился... =(
Дело в том, что мне нужен не дамп HTML, а приведение кривого HTML в более-менее нормальный вид.
Если я правильно понял, Perl's HTML::Parser пытается парсить также как и Internet Explorer, и, стало быть может выдать почти XHTML в результате своей деятельности. Вот именно это и интересно...