Благодаря совершенствованию доступного в исходных текстах поискового механизма nutch (http://www.nutch.org/) (написан на Java и C++), в сети появились две открытые поисковые системы:
- MozDex (http://www.mozdex.com) - 50 миллионов страниц в базе;
- Objects Search (http://www.objectssearch.com) - для подготовки и ранжирования результатов поиска используется Carrot2 (http://carrot2.sourceforge.net/).
Следует отметить еще один, очень скромный на фоне nutch, открытый поисковый движок на Java - egothor (http://www.egothor.org/).
PS. Для тестирования nutch используется индекс в 100 миллионов страниц.
URL: http://www.searchenginejournal.com/index.php?p=490
Новость: http://www.opennet.me/opennews/art.shtml?num=3760
А как "ranking algorithms" работает ? Так и не нашел описания как расположить найденные страничы по релевантности без полного перебора пересекаемых множеств.Запрос: word1 word2 word3
Находим 3 множества страниц и весов для word1, word2 и word3.В конце нужно найти пересечение этих трех множеств и отсортировать по общему весу.
Как быть при миллионных объемах множеств ??? Памяти не хватит !
nutch с русским нормально не работает.
А как же MnogoSearch некомерческая поисковая мащина, которой как минимум пара лет.
>А как же MnogoSearch некомерческая поисковая мащина, которой как минимум пара лет.Максимум который можно выжать из MnogoSearch - это 1 мил. страниц в индексе, для этого только на расчет рейтинга понадобится около 1 Гб ОЗУ.
Nutch только тестируют на 100 миллионах.
>Максимум который можно выжать из MnogoSearch - это 1 мил. страниц в индексес чего это вдруг??? многосерч может хранить данные как в sql так и файловой системе
DPSEARCH
надо пользовать
он из многосерча сделан методом удаления багов и добавления фич
http://www.dataparksearch.org/cgi-bin/simpleforum.cgi