URL: https://www.opennet.me/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID3
Нить номер: 76874
[ Назад ]
Исходное сообщение
"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Отправлено opennews , 03-Май-11 17:42
В развитии Википедии был сделан потенциально важный шаг. Вышедший (http://osr.cs.fau.de/2011/05/01/announcing-the-open-source-s.../) на днях парсер викитекста под названием Sweble (http://sweble.org/) по мнению разработчиков проекта поможет решить проблемы сообщества Википедии. Главной из проблем является (http://dirkriehle.com/2011/05/01/the-parser-that-cracked-the.../) обособленность, плохая документированность и привязанность к движку MediaWiki языка разметки, использующегося при создании статей в Википедии и в других проектах фонда Викимедиа.
Инициатива по созданию независимого парсера викитекста была выдвинута несколько лет назад профессором Университета города Эрланген (Нюрнберг, Германия) Дирком Рилом (http://dirkriehle.com/about/half-page-bio/), привлекшим к проекту аспиранта Ханнеса Дорна (Hannes Dohrn), который помог ему осуществить задуманное. По словам профессора, "Викитекст не имеет формальной грамматики, чётких правил обработки и в...
URL: http://www.h-online.com/open/news/item/Wikitext-parser-Swebl...
Новость: http://www.opennet.me/opennews/art.shtml?num=30435
Содержание
- В рамках проекта Sweble подготовлен полноценный парсер Викит...,Anonus, 17:42 , 03-Май-11
- В рамках проекта Sweble подготовлен полноценный парсер Викит...,Crazy Alex, 17:49 , 03-Май-11
- В рамках проекта Sweble подготовлен полноценный парсер Викит...,VoDA, 18:02 , 03-Май-11
- В рамках проекта Sweble подготовлен полноценный парсер Викит...,Аноним, 00:42 , 04-Май-11
- В рамках проекта Sweble подготовлен полноценный парсер Викит...,DeadLoco, 03:07 , 04-Май-11
- В рамках проекта Sweble подготовлен полноценный парсер Викит...,Vitold S, 10:11 , 04-Май-11
- В рамках проекта Sweble подготовлен полноценный парсер Викит...,Sarmat, 10:29 , 04-Май-11
- В рамках проекта Sweble подготовлен полноценный парсер Викит...,VoDA, 12:02 , 04-Май-11
- В рамках проекта Sweble подготовлен полноценный парсер Викит...,Аноним, 11:08 , 10-Май-11
- В рамках проекта Sweble подготовлен полноценный парсер Викит...,Аноним, 17:50 , 03-Май-11
- В рамках проекта Sweble подготовлен полноценный парсер Викит...,VoDA, 19:18 , 03-Май-11
- В рамках проекта Sweble подготовлен полноценный парсер Викит...,Аноним, 19:20 , 03-Май-11
- В рамках проекта Sweble подготовлен полноценный парсер Викит...,Анонимко, 19:48 , 03-Май-11
- В рамках проекта Sweble подготовлен полноценный парсер Викит...,Ононим, 19:47 , 03-Май-11
- В рамках проекта Sweble подготовлен полноценный парсер Викит...,Ононим, 19:45 , 03-Май-11
- В рамках проекта Sweble подготовлен полноценный парсер Викит...,ascrzy, 21:29 , 03-Май-11
- В рамках проекта Sweble подготовлен полноценный парсер Викит...,the joker, 21:39 , 03-Май-11
- В рамках проекта Sweble подготовлен полноценный парсер Викит...,тоже Аноним, 21:55 , 03-Май-11
- В рамках проекта Sweble подготовлен полноценный парсер Викит...,Avator, 02:55 , 04-Май-11
- В рамках проекта Sweble подготовлен полноценный парсер...,anonymous, 20:05 , 05-Май-11
- В рамках проекта Sweble подготовлен полноценный парсер Викит...,eSyr, 08:40 , 04-Май-11
- В рамках проекта Sweble подготовлен полноценный парсер Викит...,Аноним, 11:09 , 10-Май-11
- В рамках проекта Sweble подготовлен полноценный парсер Викит...,Сергей, 02:47 , 04-Май-11
- В рамках проекта Sweble подготовлен полноценный парсер Викит...,VoDA, 06:30 , 04-Май-11
- В рамках проекта Sweble подготовлен полноценный парсер Викит...,Vitold S, 10:13 , 04-Май-11
- В рамках проекта Sweble подготовлен полноценный парсер Викит...,zazik, 12:47 , 04-Май-11
Сообщения в этом обсуждении
"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Отправлено Anonus , 03-Май-11 17:42
Это хорошо или плохо?
"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Отправлено Crazy Alex , 03-Май-11 17:49
Чудо на Java, которое медленнее PHP-варианта? Ну умудрились, что тут скажешь...
"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Отправлено VoDA , 03-Май-11 18:02
они делают разбор грамматики и построение AST. PHP вариант вероятно гонит wiki-разметку в HTML не запариваясь на тему грамматик и прочего.конечно прямой однопроходный конвертер будет быстрее грамматического анализатора и построения AST, а затем только по AST построения HTML.
"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Отправлено Аноним , 04-Май-11 00:42
Тобишь правильный подход Java медленнее PHP, ЧИТД.
"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Отправлено DeadLoco , 04-Май-11 03:07
Вы, видимо, о проблеме P/NP не слыхали. И о том, что сгенерить текст и распарсить его - существенно разные задачи - тоже.
"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Отправлено Vitold S , 04-Май-11 10:11
Проблема в использовании Java! Надо переписать на C/C++ и будет работать быстрее чем на PHP. Думаю, что просто в Java есть какой-нить встроенный класс JParser на котором все и держится...
"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Отправлено Sarmat , 04-Май-11 10:29
Мне бы вашу уверенность ;) Поймите на PHP и на Java решались разные задачи поэтому и разница в скорости.
"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Отправлено VoDA , 04-Май-11 12:02
чтобы рассуждать о предмете лучше хоть немного владеть темой. а не обсуждать предмет информацией почерпнутой на ЛОРе ;)
"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Отправлено Аноним , 10-Май-11 11:08
Ты новость прочитай, для начала
"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Отправлено Аноним , 03-Май-11 17:50
> Sweble написан на языке Java
> Производительность Sweble пока ниже, чем у оригинального парсера MediaWiki, написанного на языке PHPМолодцы ребята.
"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Отправлено VoDA , 03-Май-11 19:18
Пора бы уже инфраструктуру Wikipedia переводить на Java + Cassandra а не мутить недо-кластера из MySQL master + 10 MySQL slave + memcached и еще бантик сверху ;)
"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Отправлено Аноним , 03-Май-11 19:20
Пора делать распределённую censhorship-resistant p2p-википедию.
"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Отправлено Анонимко , 03-Май-11 19:48
Она и так резистант. А еще сильнее не надо, а то дети в рефератах и докладах будут писать, что кошки, это няшные животные.
"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Отправлено Ононим , 03-Май-11 19:47
> Java + CassandraНе смешите. Эта гадость только в ынтырпрайзе может работать на откаты поставщикам новых серверов, греющих воздух.
"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Отправлено Ононим , 03-Май-11 19:45
А идея сделать нормальную грамматику им в голову не пришла?
"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Отправлено ascrzy , 03-Май-11 21:29
А потом переписывать всю вики с применением этой грамматики?
"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Отправлено the joker , 03-Май-11 21:39
> А потом переписывать всю вики с применением этой грамматики?А потом из информации, полученной с помощью этого парсера, генерить тот же контент в новой грамматике, не?
"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Отправлено тоже Аноним , 03-Май-11 21:55
Осталось только дать здесь ссылку на описание этой более лучшей грамматики, пришедшей в светлые головы комментаторов. Ждем-с...
"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Отправлено Avator , 04-Май-11 02:55
Может быть Dita или Docbook? )
"В рамках проекта Sweble подготовлен полноценный парсер..."
Отправлено anonymous , 05-Май-11 20:05
> Может быть Dita или Docbook? ) то есть, из нормально читабельного и понятного вики-форматирования делать совершенно нечитабельный жирный и тупой xml? гениальный ход, ага. нет, не зря таки «деловые машины» в своё время разрабатывали железный акселератор для парзинга xml. и зря бросили: все люди с xml головного мозга будут дико рады этой ерунде. заместо выкинуть xml и забыть, как страшный сон и постыдную ошибку прошлого.
"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Отправлено eSyr , 04-Май-11 08:40
А что, creole отменили?
"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Отправлено Аноним , 10-Май-11 11:09
>> А потом переписывать всю вики с применением этой грамматики?
> А потом из информации, полученной с помощью этого парсера, генерить тот же
> контент в новой грамматике, не?Но для начала, надо старую распарсить, не?
"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Отправлено Сергей , 04-Май-11 02:47
Так в репозитриях и не смог отыскать формального описания грамматики...
"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Отправлено VoDA , 04-Май-11 06:30
возможно что формального описания грамматики просто нет ;)иначе почему провалились все 30 попыток написания парсеров? )))
"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Отправлено Vitold S , 04-Май-11 10:13
> иначе почему провалились все 30 попыток написания парсеров? ))) потому что писали студенты?
"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Отправлено zazik , 04-Май-11 12:47
>> иначе почему провалились все 30 попыток написания парсеров? )))
> потому что писали студенты?Потому что писали на Java?