URL: https://www.opennet.me/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID3
Нить номер: 3652
[ Назад ]

Исходное сообщение
"OpenNews: У коммерческих поисковых систем появилась Open Source альтернатива"
Отправлено opennews , 29-Апр-04 10:36

Благодаря совершенствованию доступного в исходных текстах поискового механизма nutch (http://www.nutch.org/) (написан на Java и C++), в сети появились две открытые поисковые системы:
- MozDex (http://www.mozdex.com) - 50 миллионов страниц в базе;
- Objects Search (http://www.objectssearch.com) - для подготовки и ранжирования результатов поиска используется Carrot2 (http://carrot2.sourceforge.net/).

Следует отметить еще один, очень скромный на фоне nutch, открытый поисковый движок на Java - egothor (http://www.egothor.org/).

PS. Для тестирования nutch используется индекс в 100 миллионов страниц.

URL: http://www.searchenginejournal.com/index.php?p=490
Новость: http://www.opennet.me/opennews/art.shtml?num=3760

Содержание

У коммерческих поисковых систем появилась Open Source альтернатива,Лукчинский, 10:36 , 29-Апр-04
У коммерческих поисковых систем появилась Open Source альтернатива,Tim, 10:52 , 29-Апр-04
У коммерческих поисковых систем появилась Open Source альтернатива,Ruslan, 10:00 , 30-Апр-04
- У коммерческих поисковых систем появилась Open Source альтер...,uldus, 11:16 , 30-Апр-04
У коммерческих поисковых систем появилась Open Source альтернатива,Kiev1.org, 20:07 , 07-Май-04
У коммерческих поисковых систем появилась Open Source альтернатива,Suslik, 13:19 , 17-Ноя-05

Сообщения в этом обсуждении

"У коммерческих поисковых систем появилась Open Source альтернатива"
Отправлено Лукчинский , 29-Апр-04 10:36

А как "ranking algorithms" работает ? Так и не нашел описания как расположить найденные страничы по релевантности без полного перебора пересекаемых множеств.
Запрос: word1 word2 word3
Находим 3 множества страниц и весов для word1, word2 и word3.
В конце нужно найти пересечение этих трех множеств и отсортировать по общему весу.
Как быть при миллионных объемах множеств ??? Памяти не хватит !

"У коммерческих поисковых систем появилась Open Source альтернатива"
Отправлено Tim , 29-Апр-04 10:52

nutch с русским нормально не работает.

"У коммерческих поисковых систем появилась Open Source альтернатива"
Отправлено Ruslan , 30-Апр-04 10:00

А как же MnogoSearch некомерческая поисковая мащина, которой как минимум пара лет.

"У коммерческих поисковых систем появилась Open Source альтер..."
Отправлено uldus , 30-Апр-04 11:16

>А как же MnogoSearch некомерческая поисковая мащина, которой как минимум пара лет.
Максимум который можно выжать из MnogoSearch - это 1 мил. страниц в индексе, для этого только на расчет рейтинга понадобится около 1 Гб ОЗУ.
Nutch только тестируют на 100 миллионах.

"У коммерческих поисковых систем появилась Open Source альтернатива"
Отправлено Kiev1.org , 07-Май-04 20:07

>Максимум который можно выжать из MnogoSearch - это 1 мил. страниц в индексе
с чего это вдруг??? многосерч может хранить данные как в sql так и файловой системе

"У коммерческих поисковых систем появилась Open Source альтернатива"
Отправлено Suslik , 17-Ноя-05 13:19

DPSEARCH
надо пользовать
он из многосерча сделан методом удаления багов и добавления фич
http://www.dataparksearch.org/cgi-bin/simpleforum.cgi