Результаты (http://zooie.wordpress.com/2009/07/06/a-comparison-of-open-s.../) тестирования открытых поисковых движков: Lucene, Xapian, zettair и sphinx, плюс для сравнения тесты были проведены для данных сохраненных в БД SQLite. При тестировании оценивалось: пиковое максимальное потребление памяти при индексации и выборке, скорость индексации данных, производительность поиска, итоговый размер индекса, релевантность результатов. В качестве данных для тестов использовался архив сообщений сервиса Twitter и около 200 тыс. журнальных статей по медицине. Победа присуждена системе Lucene, отличившейся минимальным размером индекса и прекрасной производительностью при выборке данных.URL: http://zooie.wordpress.com/2009/07/06/a-comparison-of-open-s.../
Новость: http://www.opennet.me/opennews/art.shtml?num=22484
Mnogosearch не открытый разве?
хм. это единственной явовской то софтине приз присудили,
а в списке остальные на сях да сяхПП. О_о.
Я фигею.
Ну размер индекса это едва ли вообще критерий. На втором месте время индексации, на первом время поиска, по обоим lucene сливает, а заодно жрет память (про 30 метров не знаю как они считали, JVM меньше пары-тройки сотен никогда не ест).
Очень интересная позиция. Размер индекса 66 vs 180/263 Mb (первый тест) или 91 vs 474/339 - это неважно? Принципиальная разница в том, что первый индекс поместиться в память, а второй может и не влезть.. и будут тормоза.Второе, по тесту на время поиска lucene на первом месте, точка. Никто не сумел найти быстрее (ну в общем наверное логично, что когда тебе надо 474 мегов индексов перелопатить..). И мало того, одновременно дал наивысшую релевантность при этом поиске. Одновременно выйгрыш по двум самым важным параметрам - это и есть полный вин.
А джава? Ну что джава.. Возьмите clucene на C++, lucene.net на C# или любой другой, более совместимый с вашими идеологическим принципами.. Хотя они, возможно, не так оптимизированы..
"Lucene was the only solution that produced an index that was smaller than the input data size."Представляете куда поползет размер индекса на реальных задачах? И как с ним придется работать в случае кластера?
С чего это Вы взяли, что lucene по времени поиска сливает? В приведенных таблицах lucene как раз на первом месте по скорости поиска.
Важность критерия времени индексации очень зависит от реальной задачи.
Про то, что размер индекса это не критерий это Вы абсолютно зря. На реальных задачах размер индекса определяет трудозатраты на поиск, а так же сможете ли вы вообще работать с этой базой (если у соперников индекс так быстро прыгает за сотню, то очень скоро их базы будут неповоротливыми).
Многое зависит от задачи при выборе движка. Например в таблице можно увидеть что у Xapian потребление памяти при пиковой нагрузке в 18 раз меньше чем у Lucene, при схожих показателях в релевантности и скорости. С другой стороны у Sphinx больше возможностей фильтрации по дополнительным атрибутам документов, опять же сравнивая с Lucene .
А они версию сфинкса по старее не могли найти?