The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



Индекс форумов
Составление сообщения

Исходное сообщение
"Подборка расширений к SQLite и система полнотекстового поиск..."
Отправлено Veter, 29-Июн-11 19:17 
Поиск по словоформам может выполняться и без морфологического анализа, путем стемминга (более простая задача), что в нашем случае и делается.

Из вики "Стемминг":

"Стемматизация (стемминг) — это процесс нахождения основы слова для заданного исходного слова. Основа слова необязательно совпадает с морфологическим корнем слова."

Проще говоря, мы отбрасываем те части слова, которые считаем незначащими. Но вовсе не обязательно то, что остается, будет совпадать с корнем слова.
Пример из вики "Корень (лингвистика)": "В сложных словах (композитах) несколько корней: желез-н-о-дорож-н-ый". Но стемминг (Snowball) дает совершенно другой результат:

$ echo железнодорожный | stemwords -l russian
железнодорожн

Есть еще и поиск по soundex-хэшу (их много разных реализаций), можно найти и написанные с ошибками слова, и опять же без морфологического анализа. Правда, тот, кто пишет саму реализацию хэша, опирается как раз на знание морфологии... но это совсем другая история :)

 

Ваше сообщение
Имя*:
EMail:
Для отправки ответов на email укажите знак ! перед адресом, например, [email protected] (!! - не показывать email).
Более тонкая настройка отправки ответов производится в профиле зарегистрированного участника форума.
Заголовок*:
Сообщение*:
  Введите код, изображенный на картинке: КОД
 
При общении не допускается: неуважительное отношение к собеседнику, хамство, унизительное обращение, ненормативная лексика, переход на личности, агрессивное поведение, обесценивание собеседника, провоцирование флейма голословными и заведомо ложными заявлениями. Не отвечайте на сообщения, явно нарушающие правила - удаляются не только сами нарушения, но и все ответы на них. Лог модерирования.



Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру