URL: https://www.opennet.me/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID3
Нить номер: 56675
[ Назад ]

Исходное сообщение
"Сравнение производительности открытых поисковых движков"

Отправлено opennews , 06-Июл-09 22:48 
Результаты (http://zooie.wordpress.com/2009/07/06/a-comparison-of-open-s.../)  тестирования открытых поисковых движков: Lucene, Xapian, zettair и sphinx, плюс для сравнения тесты были проведены для данных сохраненных в БД SQLite. При тестировании оценивалось: пиковое максимальное потребление памяти при индексации и выборке, скорость индексации данных, производительность поиска, итоговый размер индекса, релевантность результатов. В качестве данных для тестов использовался архив сообщений сервиса Twitter и около 200 тыс. журнальных статей по медицине. Победа присуждена системе Lucene, отличившейся минимальным размером индекса и прекрасной производительностью при выборке данных.

URL: http://zooie.wordpress.com/2009/07/06/a-comparison-of-open-s.../
Новость: http://www.opennet.me/opennews/art.shtml?num=22484


Содержание

Сообщения в этом обсуждении
"А как же mnogosearch?"
Отправлено Moses , 06-Июл-09 22:48 
Mnogosearch не открытый разве?

"Сравнение производительности открытых поисковых движков"
Отправлено trdm , 06-Июл-09 23:06 
хм. это единственной явовской то софтине приз присудили,
а в списке остальные на сях да сяхПП. О_о.
Я фигею.

"Сравнение производительности открытых поисковых движков"
Отправлено аноним , 07-Июл-09 02:54 
Ну размер индекса это едва ли вообще критерий. На втором месте время индексации, на первом время поиска, по обоим lucene сливает, а заодно жрет память (про 30 метров не знаю как они считали, JVM меньше пары-тройки сотен никогда не ест).

"Сравнение производительности открытых поисковых движков"
Отправлено Аноним , 07-Июл-09 12:59 
Очень интересная позиция. Размер индекса 66 vs 180/263 Mb (первый тест) или 91 vs 474/339 - это неважно? Принципиальная разница в том, что первый индекс поместиться в память, а второй может и не влезть.. и будут тормоза.

Второе, по тесту на время поиска lucene на первом месте, точка. Никто не сумел найти быстрее (ну в общем наверное логично, что когда тебе надо 474 мегов индексов перелопатить..). И мало того, одновременно дал наивысшую релевантность при этом поиске. Одновременно выйгрыш по двум самым важным параметрам - это и есть полный вин.

А джава? Ну что джава.. Возьмите clucene на C++, lucene.net на C# или любой другой, более совместимый с вашими идеологическим принципами.. Хотя они, возможно, не так оптимизированы..


"Сравнение производительности открытых поисковых движков"
Отправлено SKeeper , 07-Июл-09 13:09 
"Lucene was the only solution that produced an index that was smaller than the input data size."

Представляете куда поползет размер индекса на реальных задачах? И как с ним придется работать в случае кластера?

С чего это Вы взяли, что lucene по времени поиска сливает? В приведенных таблицах lucene как раз на первом месте по скорости поиска.

Важность критерия времени индексации очень зависит от реальной задачи.

Про то, что размер индекса это не критерий это Вы абсолютно зря. На реальных задачах размер индекса определяет трудозатраты на поиск, а так же сможете ли вы вообще работать с этой базой (если у соперников индекс так быстро прыгает за сотню, то очень скоро их базы будут неповоротливыми).


"Сравнение производительности открытых поисковых движков"
Отправлено crypto5 , 07-Июл-09 19:26 
Многое зависит от задачи при выборе движка. Например в таблице можно увидеть что у Xapian потребление памяти при пиковой нагрузке в 18 раз меньше чем у Lucene, при схожих показателях в релевантности и скорости. С другой стороны у Sphinx больше возможностей фильтрации по дополнительным атрибутам документов, опять же сравнивая с Lucene .

"Сравнение производительности открытых поисковых движков"
Отправлено SaveTheRbtz , 20-Июл-09 10:27 
А они версию сфинкса по старее не могли найти?