The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

У коммерческих поисковых систем появилась Open Source альтернатива

28.04.2004 22:16

Благодаря совершенствованию доступного в исходных текстах поискового механизма nutch (написан на Java и C++), в сети появились две открытые поисковые системы:

  • MozDex - 50 миллионов страниц в базе;
  • Objects Search - для подготовки и ранжирования результатов поиска используется Carrot2.

    Следует отметить еще один, очень скромный на фоне nutch, открытый поисковый движок на Java - egothor.

    PS. Для тестирования nutch используется индекс в 100 миллионов страниц.

    1. Главная ссылка к новости (http://www.searchenginejournal...)
    2. Registry of web robots.
    3. Carrot2 - search results clustering framework.
    4. Nutch - open-source web search engine.
    5. EGOTHOR - Open Source, high-performance, full-featured text search engine
    6. Список программ для организации локального поиска на сайте
    Лицензия: CC BY 3.0
    Короткая ссылка: https://opennet.ru/3760-search
    Ключевые слова: search, web
    При перепечатке указание ссылки на opennet.ru обязательно


    Обсуждение (6) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.1, Лукчинский (?), 10:36, 29/04/2004 [ответить]  
  • +/
    А как "ranking algorithms" работает ? Так и не нашел описания как расположить найденные страничы по релевантности без полного перебора пересекаемых множеств.

    Запрос: word1 word2 word3
    Находим 3 множества страниц и весов для word1, word2 и word3.

    В конце нужно найти пересечение этих трех множеств и отсортировать по общему весу.

    Как быть при миллионных объемах множеств ??? Памяти не хватит !

     
  • 1.2, Tim (??), 10:52, 29/04/2004 [ответить]  
  • +/
    nutch с русским нормально не работает.
     
  • 1.3, Ruslan (??), 10:00, 30/04/2004 [ответить]  
  • +/
    А как же MnogoSearch некомерческая поисковая мащина, которой как минимум пара лет.
     
     
  • 2.4, uldus (ok), 11:16, 30/04/2004 [^] [^^] [^^^] [ответить]  
  • +/
    >А как же MnogoSearch некомерческая поисковая мащина, которой как минимум пара лет.

    Максимум который можно выжать из MnogoSearch - это 1 мил. страниц в индексе, для этого только на расчет рейтинга понадобится около 1 Гб ОЗУ.

    Nutch только тестируют на 100 миллионах.

     

  • 1.5, Kiev1.org (?), 20:07, 07/05/2004 [ответить]  
  • +/
    >Максимум который можно выжать из MnogoSearch - это 1 мил. страниц в индексе

    с чего это вдруг??? многосерч может хранить данные как в sql так и файловой системе

     
  • 1.6, Suslik (?), 13:19, 17/11/2005 [ответить]  
  • +/
    DPSEARCH
    надо пользовать
    он из многосерча сделан методом удаления багов и добавления фич
    http://www.dataparksearch.org/cgi-bin/simpleforum.cgi
     
     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Партнёры:
    PostgresPro
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2024 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру