У коммерческих поисковых систем появилась Open Source альтернатива

28.04.2004 22:16

Благодаря совершенствованию доступного в исходных текстах поискового механизма nutch (написан на Java и C++), в сети появились две открытые поисковые системы:

MozDex - 50 миллионов страниц в базе;

Objects Search - для подготовки и ранжирования результатов поиска используется Carrot2.

Следует отметить еще один, очень скромный на фоне nutch, открытый поисковый движок на Java - egothor.

PS. Для тестирования nutch используется индекс в 100 миллионов страниц.

исправить –1 +/–

Лицензия: CC BY 3.0

Короткая ссылка: https://opennet.ru/3760-search

Ключевые слова: search, web

При перепечатке указание ссылки на opennet.ru обязательно

Обсуждение (6)

1.1, Лукчинский (?), 10:36, 29/04/2004 [ответить]

+/–

А как "ranking algorithms" работает ? Так и не нашел описания как расположить найденные страничы по релевантности без полного перебора пересекаемых множеств.

Запрос: word1 word2 word3
Находим 3 множества страниц и весов для word1, word2 и word3.

В конце нужно найти пересечение этих трех множеств и отсортировать по общему весу.

Как быть при миллионных объемах множеств ??? Памяти не хватит !

1.2, Tim (??), 10:52, 29/04/2004 [ответить]	+/–
nutch с русским нормально не работает.

1.3, Ruslan (??), 10:00, 30/04/2004 [ответить]	+/–
А как же MnogoSearch некомерческая поисковая мащина, которой как минимум пара лет.

2.4, uldus (ok), 11:16, 30/04/2004 [^] [^^] [^^^] [ответить]

+/–

>А как же MnogoSearch некомерческая поисковая мащина, которой как минимум пара лет.

Максимум который можно выжать из MnogoSearch - это 1 мил. страниц в индексе, для этого только на расчет рейтинга понадобится около 1 Гб ОЗУ.

Nutch только тестируют на 100 миллионах.

1.5, Kiev1.org (?), 20:07, 07/05/2004 [ответить]	+/–
>Максимум который можно выжать из MnogoSearch - это 1 мил. страниц в индексе с чего это вдруг??? многосерч может хранить данные как в sql так и файловой системе

1.6, Suslik (?), 13:19, 17/11/2005 [ответить]	+/–
DPSEARCH надо пользовать он из многосерча сделан методом удаления багов и добавления фич http://www.dataparksearch.org/cgi-bin/simpleforum.cgi

Добавить комментарий

Текст: