The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

форумы  помощь  поиск  регистрация  майллист  вход/выход  слежка  RSS
"Лингвистический парсер словарей"
Вариант для распечатки  
Пред. тема | След. тема 
Форум Открытые системы на сервере (Разное / Linux)
Изначальное сообщение [ Отслеживать ]

"Лингвистический парсер словарей"  +/
Сообщение от handler2006 email(ok) on 01-Дек-11, 18:18 
Здравствуйте!
Мне необходимо производить лексикографический разбор слов для поисковой системы. Для словарей лучше всего подходит тернарное дерево, словарь думаю взять из lingvo, хранить в БД, но какие структуры создать и какие методы использовать - мне неведомо. Знаю только, что существует нормализованная форма слова, существуют также слова, не участвующие в поиске (союзы, предлоги,...). Меня интересует общий алгоритм и эффективные методы работы со словарями, Буду признателен за полезные статьи и направления. Спасибо. Алексей
Ответить | Правка | Cообщить модератору

Оглавление

Сообщения по теме [Сортировка по времени | RSS]


1. "Лингвистический парсер словарей"  +/
Сообщение от parad (??) on 02-Дек-11, 18:10 
ничего не понял что ты сказал( наверное ты тоже ), но методом гадания на кофейной гуще: http://www.aot.ru/
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

2. "Лингвистический парсер словарей"  +/
Сообщение от handler2006 email(ok) on 02-Дек-11, 18:54 
Неплохой проект, только слабенький - не перевел слово "ябловами" -> "яблоками".
Немного конкретизирую задачу: провести нормализацию слова.
В некоторых источниках пишут: машинная морфология - выделение основы слова, суффикса, пристаки и окончания.
Причем эту процедуру необходимо делать для разных языков.
Видел неплохой проект http://aspell.net
Кстати, еще одна проблема: как определить язык ввода?
Ответить | Правка | ^ к родителю #1 | Наверх | Cообщить модератору

3. "Лингвистический парсер словарей"  +/
Сообщение от gpl77 (ok) on 02-Дек-11, 19:18 
> Немного конкретизирую задачу: провести нормализацию слова.
> В некоторых источниках пишут: машинная морфология - выделение основы слова, суффикса, пристаки

яндекс пишем :-)
все начинают отсюда:
"Грамматический словарь русского языка А. А. Зализняка"

http://ru.wikipedia.org/wiki/%C3%F0%E0%E...

не знаю влезет ли ссылка

Ответить | Правка | ^ к родителю #2 | Наверх | Cообщить модератору

4. "Лингвистический парсер словарей"  +/
Сообщение от Алексей email(??) on 02-Дек-11, 20:25 
Ну вообще не в ту сторону.
Во-первых: нужны словари, по которым будут искаться слова. Вопрос: какие?
Во-вторых: как проводить нормализацию слова?
В-третьих: какие структуры словарей необходимо иметь, чтобы по нормализованной форме найти все подходящие слова?
Ответить | Правка | ^ к родителю #3 | Наверх | Cообщить модератору

6. "Лингвистический парсер словарей"  +/
Сообщение от parad (??) on 02-Дек-11, 20:37 
ты какими-то дикими понятиями оперируешь.
1) хочешь искать слова и спрашиваешь у людей какие слова ты хочешь искать?
2) aot - если не удовлетворяет, закрываешь все и пишешь с нуля. яндекс, мейл, жж ... почемуто используют, а тут тебе на - слабенький.
3) что такое структура словаря? что такое подходящие слова и кому они должны подходить?
Ответить | Правка | ^ к родителю #4 | Наверх | Cообщить модератору

5. "Лингвистический парсер словарей"  +/
Сообщение от parad (??) on 02-Дек-11, 20:31 
ну слабенький - это с высоты своего профессионализма оценено конечно? человеком который задал вопрос с чего начать?

ябловами -> яблоками - по какому такому правилу оно должно получиться? это скорее задача нечеткого поиска.

Ответить | Правка | ^ к родителю #2 | Наверх | Cообщить модератору

7. "Лингвистический парсер словарей"  +/
Сообщение от Алексей email(??) on 02-Дек-11, 20:38 
Поиск Левенштейна
Ответить | Правка | ^ к родителю #5 | Наверх | Cообщить модератору

8. "Лингвистический парсер словарей"  +/
Сообщение от Алексей email(??) on 02-Дек-11, 21:07 
В качестве словарей решено взять lingvo - парсить их и на их основе создавать бд слов, а уже к ним писать алгоритм  нормализации и парсинга
Ответить | Правка | ^ к родителю #7 | Наверх | Cообщить модератору

9. "Лингвистический парсер словарей"  +/
Сообщение от handler2006 email(ok) on 08-Дек-11, 09:20 
По поводу AOT:
Насколько я понял, он поддерживает только русский язык?
Есть еще несколько технических требований к словарю:
1. Поддержка японских языков
2. поддержка Unicode (ucs-2)
Ответить | Правка | ^ к родителю #8 | Наверх | Cообщить модератору

10. "Лингвистический парсер словарей"  +/
Сообщение от parad (??) on 16-Дек-11, 13:57 
> По поводу AOT:
> Насколько я понял, он поддерживает только русский язык?

неправильно понял.

> Есть еще несколько технических требований к словарю:
> 1. Поддержка японских языков

за соседним столом японоговорящий коллега подсказал что в японском слова не искажаются ни падежами, ни множественным числом, у них в языке вообще все тупо.

> 2. поддержка Unicode (ucs-2)

ну конвертация между кодироками, - или счеташь это задача словаря?


Ответить | Правка | ^ к родителю #9 | Наверх | Cообщить модератору

11. "Лингвистический парсер словарей"  +/
Сообщение от handler2006 email(ok) on 16-Дек-11, 15:29 

> за соседним столом японоговорящий коллега подсказал что в японском слова не искажаются
> ни падежами, ни множественным числом, у них в языке вообще все
> тупо.

Вопрос не в том - просто или тупо, а в том, что в АОТ словаря на японский нет никакого.
>> 2. поддержка Unicode (ucs-2)
> ну конвертация между кодироками, - или счеташь это задача словаря?

Опять-таки - вопрос не в кодировке а в представлении символа одно- и двух-байтовое. АОТ не понимает двухбайтовые символы (содержащие, в частности, и японские)

hunspell, судя по документации, поддерживает Unicode, только где взять Unicode-словари и aff-файлы к ним?

Ответить | Правка | ^ к родителю #10 | Наверх | Cообщить модератору

12. "Лингвистический парсер словарей"  +/
Сообщение от parad (ok) on 20-Дек-11, 11:23 

> hunspell, судя по документации, поддерживает Unicode, только где взять Unicode-словари
> и aff-файлы к ним?

google и навигация по сайту.


Ответить | Правка | ^ к родителю #11 | Наверх | Cообщить модератору

13. "Лингвистический парсер словарей"  +/
Сообщение от handler2006 email(ok) on 20-Дек-11, 11:31 

> google и навигация по сайту.

Потратил день и нервы  - наверное, /dev/hands кривые, и я все делаю через /dev/ass

Ответить | Правка | ^ к родителю #12 | Наверх | Cообщить модератору

14. "Лингвистический парсер словарей"  +/
Сообщение от parad (??) on 22-Дек-11, 15:36 
не знаю как насчет либ, но для FTS-постгреса все *spell словари можно было сконвертировать в желаемую кодировку при помощи iconv и скормить в таком виде. фактически словарь - текстовой файл, с отсортированными построчно по алфавиту словами. тобишь смело можно предположить что каждая запись интерпретируется как набор байт и над всем этим работает бинарный поиск.

попробывать проверить - дело 10мин, написать сюда и ждать ответ - день.
развивай в себе экспериментатора и научись пользоваться гуглом - ты не первопроходец - расшаренного опыта в сети предостаточно.

Ответить | Правка | ^ к родителю #13 | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2025 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру