URL: https://www.opennet.me/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID3
Нить номер: 76874
[ Назад ]

Исходное сообщение
"В рамках проекта Sweble подготовлен полноценный парсер Викит..."

Отправлено opennews , 03-Май-11 17:42 
В развитии Википедии был сделан потенциально важный шаг. Вышедший (http://osr.cs.fau.de/2011/05/01/announcing-the-open-source-s.../) на днях парсер викитекста под названием Sweble (http://sweble.org/) по мнению разработчиков проекта поможет решить проблемы сообщества Википедии. Главной из проблем является (http://dirkriehle.com/2011/05/01/the-parser-that-cracked-the.../) обособленность, плохая документированность и привязанность к движку MediaWiki языка разметки, использующегося при создании статей в Википедии и в других проектах фонда Викимедиа.


Инициатива по созданию независимого парсера викитекста была выдвинута несколько лет назад профессором Университета города Эрланген (Нюрнберг, Германия) Дирком Рилом (http://dirkriehle.com/about/half-page-bio/), привлекшим  к проекту аспиранта  Ханнеса Дорна (Hannes Dohrn), который помог ему осуществить задуманное. По словам профессора, "Викитекст не имеет формальной грамматики, чётких правил обработки и в...

URL: http://www.h-online.com/open/news/item/Wikitext-parser-Swebl...
Новость: http://www.opennet.me/opennews/art.shtml?num=30435


Содержание

Сообщения в этом обсуждении
"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Отправлено Anonus , 03-Май-11 17:42 
Это хорошо или плохо?

"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Отправлено Crazy Alex , 03-Май-11 17:49 
Чудо на Java, которое медленнее PHP-варианта? Ну умудрились, что тут скажешь...

"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Отправлено VoDA , 03-Май-11 18:02 
они делают разбор грамматики и построение AST. PHP вариант вероятно гонит wiki-разметку в HTML не запариваясь на тему грамматик и прочего.

конечно прямой однопроходный конвертер будет быстрее грамматического анализатора и построения AST, а затем только по AST построения HTML.


"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Отправлено Аноним , 04-Май-11 00:42 
Тобишь правильный подход Java медленнее PHP, ЧИТД.

"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Отправлено DeadLoco , 04-Май-11 03:07 
Вы, видимо, о проблеме P/NP не слыхали. И о том, что сгенерить текст и распарсить его - существенно разные задачи - тоже.

"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Отправлено Vitold S , 04-Май-11 10:11 
Проблема в использовании Java! Надо переписать на C/C++ и будет работать быстрее чем на PHP. Думаю, что просто в Java есть какой-нить встроенный класс JParser на котором все и держится...

"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Отправлено Sarmat , 04-Май-11 10:29 
Мне бы вашу уверенность ;) Поймите на PHP и на Java решались разные задачи поэтому и разница в скорости.

"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Отправлено VoDA , 04-Май-11 12:02 
чтобы рассуждать о предмете лучше хоть немного владеть темой. а не обсуждать предмет информацией почерпнутой на ЛОРе ;)

"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Отправлено Аноним , 10-Май-11 11:08 
Ты новость прочитай, для начала

"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Отправлено Аноним , 03-Май-11 17:50 
> Sweble написан на языке Java
> Производительность Sweble пока ниже, чем у оригинального парсера MediaWiki, написанного на языке PHP

Молодцы ребята.


"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Отправлено VoDA , 03-Май-11 19:18 
Пора бы уже инфраструктуру Wikipedia переводить на Java + Cassandra а не мутить недо-кластера из MySQL master + 10 MySQL slave + memcached и еще бантик сверху ;)

"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Отправлено Аноним , 03-Май-11 19:20 
Пора делать распределённую censhorship-resistant p2p-википедию.

"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Отправлено Анонимко , 03-Май-11 19:48 
Она и так резистант. А еще сильнее не надо, а то дети в рефератах и докладах будут писать, что кошки, это няшные животные.

"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Отправлено Ононим , 03-Май-11 19:47 
> Java + Cassandra

Не смешите. Эта гадость только в ынтырпрайзе может работать на откаты поставщикам новых серверов, греющих воздух.


"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Отправлено Ононим , 03-Май-11 19:45 
А идея сделать нормальную грамматику им в голову не пришла?

"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Отправлено ascrzy , 03-Май-11 21:29 
А потом переписывать всю вики с применением этой грамматики?

"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Отправлено the joker , 03-Май-11 21:39 
> А потом переписывать всю вики с применением этой грамматики?

А потом из информации, полученной с помощью этого парсера, генерить тот же контент в новой грамматике, не?


"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Отправлено тоже Аноним , 03-Май-11 21:55 
Осталось только дать здесь ссылку на описание этой более лучшей грамматики, пришедшей в светлые головы комментаторов. Ждем-с...

"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Отправлено Avator , 04-Май-11 02:55 
Может быть Dita или Docbook? )

"В рамках проекта Sweble подготовлен полноценный парсер..."
Отправлено anonymous , 05-Май-11 20:05 
> Может быть Dita или Docbook? )

то есть, из нормально читабельного и понятного вики-форматирования делать совершенно нечитабельный жирный и тупой xml? гениальный ход, ага. нет, не зря таки «деловые машины» в своё время разрабатывали железный акселератор для парзинга xml. и зря бросили: все люди с xml головного мозга будут дико рады этой ерунде. заместо выкинуть xml и забыть, как страшный сон и постыдную ошибку прошлого.


"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Отправлено eSyr , 04-Май-11 08:40 
А что, creole отменили?

"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Отправлено Аноним , 10-Май-11 11:09 
>> А потом переписывать всю вики с применением этой грамматики?
> А потом из информации, полученной с помощью этого парсера, генерить тот же
> контент в новой грамматике, не?

Но для начала, надо старую распарсить, не?


"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Отправлено Сергей , 04-Май-11 02:47 
Так в репозитриях и не смог отыскать формального описания грамматики...

"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Отправлено VoDA , 04-Май-11 06:30 
возможно что формального описания грамматики просто нет ;)

иначе почему провалились все 30 попыток написания парсеров? )))


"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Отправлено Vitold S , 04-Май-11 10:13 
> иначе почему провалились все 30 попыток написания парсеров? )))

потому что писали студенты?



"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Отправлено zazik , 04-Май-11 12:47 
>> иначе почему провалились все 30 попыток написания парсеров? )))
> потому что писали студенты?

Потому что писали на Java?