URL: https://www.opennet.me/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID3
Нить номер: 3652
[ Назад ]

Исходное сообщение
"OpenNews: У коммерческих поисковых систем появилась Open Source альтернатива"

Отправлено opennews , 29-Апр-04 10:36 
Благодаря совершенствованию доступного в исходных текстах поискового механизма nutch (http://www.nutch.org/) (написан на Java и C++), в сети появились две открытые поисковые системы:
- MozDex (http://www.mozdex.com) - 50 миллионов страниц в базе;
- Objects Search (http://www.objectssearch.com) - для подготовки и ранжирования результатов поиска используется Carrot2 (http://carrot2.sourceforge.net/).


Следует отметить еще один, очень скромный на фоне nutch, открытый поисковый движок на Java - egothor (http://www.egothor.org/).


PS. Для тестирования nutch используется индекс в 100 миллионов страниц.


URL: http://www.searchenginejournal.com/index.php?p=490
Новость: http://www.opennet.me/opennews/art.shtml?num=3760


Содержание

Сообщения в этом обсуждении
"У коммерческих поисковых систем появилась Open Source альтернатива"
Отправлено Лукчинский , 29-Апр-04 10:36 
А как "ranking algorithms" работает ? Так и не нашел описания как расположить найденные страничы по релевантности без полного перебора пересекаемых множеств.

Запрос: word1 word2 word3
Находим 3 множества страниц и весов для word1, word2 и word3.

В конце нужно найти пересечение этих трех множеств и отсортировать по общему весу.

Как быть при миллионных объемах множеств ??? Памяти не хватит !


"У коммерческих поисковых систем появилась Open Source альтернатива"
Отправлено Tim , 29-Апр-04 10:52 
nutch с русским нормально не работает.

"У коммерческих поисковых систем появилась Open Source альтернатива"
Отправлено Ruslan , 30-Апр-04 10:00 
А как же MnogoSearch некомерческая поисковая мащина, которой как минимум пара лет.

"У коммерческих поисковых систем появилась Open Source альтер..."
Отправлено uldus , 30-Апр-04 11:16 
>А как же MnogoSearch некомерческая поисковая мащина, которой как минимум пара лет.

Максимум который можно выжать из MnogoSearch - это 1 мил. страниц в индексе, для этого только на расчет рейтинга понадобится около 1 Гб ОЗУ.

Nutch только тестируют на 100 миллионах.


"У коммерческих поисковых систем появилась Open Source альтернатива"
Отправлено Kiev1.org , 07-Май-04 20:07 
>Максимум который можно выжать из MnogoSearch - это 1 мил. страниц в индексе

с чего это вдруг??? многосерч может хранить данные как в sql так и файловой системе


"У коммерческих поисковых систем появилась Open Source альтернатива"
Отправлено Suslik , 17-Ноя-05 13:19 
DPSEARCH
надо пользовать
он из многосерча сделан методом удаления багов и добавления фич
http://www.dataparksearch.org/cgi-bin/simpleforum.cgi