forum.opennet.ru - "Лингвистический парсер словарей" (14)

форумы

помощь

поиск

регистрация

майллист

вход/выход

слежка

"Лингвистический парсер словарей"

Форум Открытые системы на сервере (Разное / Linux)
Вариант для распечатки		Пред. тема \| След. тема
Изначальное сообщение		[ Отслеживать ]

"Лингвистический парсер словарей"	+/–
Сообщение от handler2006 (ok) on 01-Дек-11, 18:18
Здравствуйте! Мне необходимо производить лексикографический разбор слов для поисковой системы. Для словарей лучше всего подходит тернарное дерево, словарь думаю взять из lingvo, хранить в БД, но какие структуры создать и какие методы использовать - мне неведомо. Знаю только, что существует нормализованная форма слова, существуют также слова, не участвующие в поиске (союзы, предлоги,...). Меня интересует общий алгоритм и эффективные методы работы со словарями, Буду признателен за полезные статьи и направления. Спасибо. Алексей
Ответить \| Правка \| Cообщить модератору

Оглавление

Лингвистический парсер словарей, parad, 18:10 , 02-Дек-11, (1)

Лингвистический парсер словарей, handler2006, 18:54 , 02-Дек-11, (2)

Лингвистический парсер словарей, gpl77, 19:18 , 02-Дек-11, (3)

Лингвистический парсер словарей, Алексей, 20:25 , 02-Дек-11, (4)

Лингвистический парсер словарей, parad, 20:37 , 02-Дек-11, (6)

Лингвистический парсер словарей, parad, 20:31 , 02-Дек-11, (5)

Лингвистический парсер словарей, Алексей, 20:38 , 02-Дек-11, (7)

Лингвистический парсер словарей, Алексей, 21:07 , 02-Дек-11, (8)

Лингвистический парсер словарей, handler2006, 09:20 , 08-Дек-11, (9)

Лингвистический парсер словарей, parad, 13:57 , 16-Дек-11, (10)

Лингвистический парсер словарей, handler2006, 15:29 , 16-Дек-11, (11)

Лингвистический парсер словарей, parad, 11:23 , 20-Дек-11, (12)

Лингвистический парсер словарей, handler2006, 11:31 , 20-Дек-11, (13)

Лингвистический парсер словарей, parad, 15:36 , 22-Дек-11, (14)

Сообщения по теме [Сортировка по времени | RSS]

1. "Лингвистический парсер словарей" +/–

Сообщение от parad (??) on 02-Дек-11, 18:10

ничего не понял что ты сказал( наверное ты тоже ), но методом гадания на кофейной гуще: http://www.aot.ru/

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

2. "Лингвистический парсер словарей" +/–

Сообщение от handler2006 (ok) on 02-Дек-11, 18:54

Неплохой проект, только слабенький - не перевел слово "ябловами" -> "яблоками".
Немного конкретизирую задачу: провести нормализацию слова.
В некоторых источниках пишут: машинная морфология - выделение основы слова, суффикса, пристаки и окончания.
Причем эту процедуру необходимо делать для разных языков.
Видел неплохой проект http://aspell.net
Кстати, еще одна проблема: как определить язык ввода?

Ответить | Правка | ^ к родителю #1 | Наверх | Cообщить модератору

3. "Лингвистический парсер словарей" +/–

Сообщение от gpl77 (ok) on 02-Дек-11, 19:18

> Немного конкретизирую задачу: провести нормализацию слова.
> В некоторых источниках пишут: машинная морфология - выделение основы слова, суффикса, пристаки
яндекс пишем :-)
все начинают отсюда:
"Грамматический словарь русского языка А. А. Зализняка"
http://ru.wikipedia.org/wiki/%C3%F0%E0%E...
не знаю влезет ли ссылка

Ответить | Правка | ^ к родителю #2 | Наверх | Cообщить модератору

4. "Лингвистический парсер словарей" +/–

Сообщение от Алексей (??) on 02-Дек-11, 20:25

Ну вообще не в ту сторону.
Во-первых: нужны словари, по которым будут искаться слова. Вопрос: какие?
Во-вторых: как проводить нормализацию слова?
В-третьих: какие структуры словарей необходимо иметь, чтобы по нормализованной форме найти все подходящие слова?

Ответить | Правка | ^ к родителю #3 | Наверх | Cообщить модератору

6. "Лингвистический парсер словарей" +/–

Сообщение от parad (??) on 02-Дек-11, 20:37

ты какими-то дикими понятиями оперируешь.
1) хочешь искать слова и спрашиваешь у людей какие слова ты хочешь искать?
2) aot - если не удовлетворяет, закрываешь все и пишешь с нуля. яндекс, мейл, жж ... почемуто используют, а тут тебе на - слабенький.
3) что такое структура словаря? что такое подходящие слова и кому они должны подходить?

Ответить | Правка | ^ к родителю #4 | Наверх | Cообщить модератору

5. "Лингвистический парсер словарей" +/–

Сообщение от parad (??) on 02-Дек-11, 20:31

ну слабенький - это с высоты своего профессионализма оценено конечно? человеком который задал вопрос с чего начать?
ябловами -> яблоками - по какому такому правилу оно должно получиться? это скорее задача нечеткого поиска.

Ответить | Правка | ^ к родителю #2 | Наверх | Cообщить модератору

7. "Лингвистический парсер словарей" +/–

Сообщение от Алексей (??) on 02-Дек-11, 20:38

Поиск Левенштейна

Ответить | Правка | ^ к родителю #5 | Наверх | Cообщить модератору

8. "Лингвистический парсер словарей" +/–

Сообщение от Алексей (??) on 02-Дек-11, 21:07

В качестве словарей решено взять lingvo - парсить их и на их основе создавать бд слов, а уже к ним писать алгоритм нормализации и парсинга

Ответить | Правка | ^ к родителю #7 | Наверх | Cообщить модератору

9. "Лингвистический парсер словарей" +/–

Сообщение от handler2006 (ok) on 08-Дек-11, 09:20

По поводу AOT:
Насколько я понял, он поддерживает только русский язык?
Есть еще несколько технических требований к словарю:
1. Поддержка японских языков
2. поддержка Unicode (ucs-2)

Ответить | Правка | ^ к родителю #8 | Наверх | Cообщить модератору

10. "Лингвистический парсер словарей" +/–

Сообщение от parad (??) on 16-Дек-11, 13:57

> По поводу AOT:
> Насколько я понял, он поддерживает только русский язык?
неправильно понял.
> Есть еще несколько технических требований к словарю:
> 1. Поддержка японских языков
за соседним столом японоговорящий коллега подсказал что в японском слова не искажаются ни падежами, ни множественным числом, у них в языке вообще все тупо.
> 2. поддержка Unicode (ucs-2)
ну конвертация между кодироками, - или счеташь это задача словаря?

Ответить | Правка | ^ к родителю #9 | Наверх | Cообщить модератору

11. "Лингвистический парсер словарей" +/–

Сообщение от handler2006 (ok) on 16-Дек-11, 15:29

> за соседним столом японоговорящий коллега подсказал что в японском слова не искажаются
> ни падежами, ни множественным числом, у них в языке вообще все
> тупо.
Вопрос не в том - просто или тупо, а в том, что в АОТ словаря на японский нет никакого.
>> 2. поддержка Unicode (ucs-2)
> ну конвертация между кодироками, - или счеташь это задача словаря?
Опять-таки - вопрос не в кодировке а в представлении символа одно- и двух-байтовое. АОТ не понимает двухбайтовые символы (содержащие, в частности, и японские)
hunspell, судя по документации, поддерживает Unicode, только где взять Unicode-словари и aff-файлы к ним?

Ответить | Правка | ^ к родителю #10 | Наверх | Cообщить модератору

12. "Лингвистический парсер словарей" +/–

Сообщение от parad (ok) on 20-Дек-11, 11:23

> hunspell, судя по документации, поддерживает Unicode, только где взять Unicode-словари
> и aff-файлы к ним?
google и навигация по сайту.

Ответить | Правка | ^ к родителю #11 | Наверх | Cообщить модератору

13. "Лингвистический парсер словарей" +/–

Сообщение от handler2006 (ok) on 20-Дек-11, 11:31

> google и навигация по сайту.
Потратил день и нервы - наверное, /dev/hands кривые, и я все делаю через /dev/ass

Ответить | Правка | ^ к родителю #12 | Наверх | Cообщить модератору

14. "Лингвистический парсер словарей" +/–

Сообщение от parad (??) on 22-Дек-11, 15:36

не знаю как насчет либ, но для FTS-постгреса все *spell словари можно было сконвертировать в желаемую кодировку при помощи iconv и скормить в таком виде. фактически словарь - текстовой файл, с отсортированными построчно по алфавиту словами. тобишь смело можно предположить что каждая запись интерпретируется как набор байт и над всем этим работает бинарный поиск.
попробывать проверить - дело 10мин, написать сюда и ждать ответ - день.
развивай в себе экспериментатора и научись пользоваться гуглом - ты не первопроходец - расшаренного опыта в сети предостаточно.

Ответить | Правка | ^ к родителю #13 | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема

Партнёры:

Хостинг:

Закладки на сайте
Проследить за страницей

Created 1996-2025 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру

1. "Лингвистический парсер словарей"	+/–
Сообщение от parad (??) on 02-Дек-11, 18:10
ничего не понял что ты сказал( наверное ты тоже ), но методом гадания на кофейной гуще: http://www.aot.ru/
Ответить \| Правка \| ^ к родителю #0 \| Наверх \| Cообщить модератору


	2. "Лингвистический парсер словарей"	+/–
	Сообщение от handler2006 (ok) on 02-Дек-11, 18:54
	Неплохой проект, только слабенький - не перевел слово "ябловами" -> "яблоками". Немного конкретизирую задачу: провести нормализацию слова. В некоторых источниках пишут: машинная морфология - выделение основы слова, суффикса, пристаки и окончания. Причем эту процедуру необходимо делать для разных языков. Видел неплохой проект http://aspell.net Кстати, еще одна проблема: как определить язык ввода?
	Ответить \| Правка \| ^ к родителю #1 \| Наверх \| Cообщить модератору


	3. "Лингвистический парсер словарей"	+/–
	Сообщение от gpl77 (ok) on 02-Дек-11, 19:18
	> Немного конкретизирую задачу: провести нормализацию слова. > В некоторых источниках пишут: машинная морфология - выделение основы слова, суффикса, пристаки яндекс пишем :-) все начинают отсюда: "Грамматический словарь русского языка А. А. Зализняка" http://ru.wikipedia.org/wiki/%C3%F0%E0%E... не знаю влезет ли ссылка
	Ответить \| Правка \| ^ к родителю #2 \| Наверх \| Cообщить модератору


	4. "Лингвистический парсер словарей"	+/–
	Сообщение от Алексей (??) on 02-Дек-11, 20:25
	Ну вообще не в ту сторону. Во-первых: нужны словари, по которым будут искаться слова. Вопрос: какие? Во-вторых: как проводить нормализацию слова? В-третьих: какие структуры словарей необходимо иметь, чтобы по нормализованной форме найти все подходящие слова?
	Ответить \| Правка \| ^ к родителю #3 \| Наверх \| Cообщить модератору


	6. "Лингвистический парсер словарей"	+/–
	Сообщение от parad (??) on 02-Дек-11, 20:37
	ты какими-то дикими понятиями оперируешь. 1) хочешь искать слова и спрашиваешь у людей какие слова ты хочешь искать? 2) aot - если не удовлетворяет, закрываешь все и пишешь с нуля. яндекс, мейл, жж ... почемуто используют, а тут тебе на - слабенький. 3) что такое структура словаря? что такое подходящие слова и кому они должны подходить?
	Ответить \| Правка \| ^ к родителю #4 \| Наверх \| Cообщить модератору


	5. "Лингвистический парсер словарей"	+/–
	Сообщение от parad (??) on 02-Дек-11, 20:31
	ну слабенький - это с высоты своего профессионализма оценено конечно? человеком который задал вопрос с чего начать? ябловами -> яблоками - по какому такому правилу оно должно получиться? это скорее задача нечеткого поиска.
	Ответить \| Правка \| ^ к родителю #2 \| Наверх \| Cообщить модератору


	7. "Лингвистический парсер словарей"	+/–
	Сообщение от Алексей (??) on 02-Дек-11, 20:38
	Поиск Левенштейна
	Ответить \| Правка \| ^ к родителю #5 \| Наверх \| Cообщить модератору


	8. "Лингвистический парсер словарей"	+/–
	Сообщение от Алексей (??) on 02-Дек-11, 21:07
	В качестве словарей решено взять lingvo - парсить их и на их основе создавать бд слов, а уже к ним писать алгоритм нормализации и парсинга
	Ответить \| Правка \| ^ к родителю #7 \| Наверх \| Cообщить модератору


	9. "Лингвистический парсер словарей"	+/–
	Сообщение от handler2006 (ok) on 08-Дек-11, 09:20
	По поводу AOT: Насколько я понял, он поддерживает только русский язык? Есть еще несколько технических требований к словарю: 1. Поддержка японских языков 2. поддержка Unicode (ucs-2)
	Ответить \| Правка \| ^ к родителю #8 \| Наверх \| Cообщить модератору


	10. "Лингвистический парсер словарей"	+/–
	Сообщение от parad (??) on 16-Дек-11, 13:57
	> По поводу AOT: > Насколько я понял, он поддерживает только русский язык? неправильно понял. > Есть еще несколько технических требований к словарю: > 1. Поддержка японских языков за соседним столом японоговорящий коллега подсказал что в японском слова не искажаются ни падежами, ни множественным числом, у них в языке вообще все тупо. > 2. поддержка Unicode (ucs-2) ну конвертация между кодироками, - или счеташь это задача словаря?
	Ответить \| Правка \| ^ к родителю #9 \| Наверх \| Cообщить модератору


	11. "Лингвистический парсер словарей"	+/–
	Сообщение от handler2006 (ok) on 16-Дек-11, 15:29
	> за соседним столом японоговорящий коллега подсказал что в японском слова не искажаются > ни падежами, ни множественным числом, у них в языке вообще все > тупо. Вопрос не в том - просто или тупо, а в том, что в АОТ словаря на японский нет никакого. >> 2. поддержка Unicode (ucs-2) > ну конвертация между кодироками, - или счеташь это задача словаря? Опять-таки - вопрос не в кодировке а в представлении символа одно- и двух-байтовое. АОТ не понимает двухбайтовые символы (содержащие, в частности, и японские) hunspell, судя по документации, поддерживает Unicode, только где взять Unicode-словари и aff-файлы к ним?
	Ответить \| Правка \| ^ к родителю #10 \| Наверх \| Cообщить модератору


	12. "Лингвистический парсер словарей"	+/–
	Сообщение от parad (ok) on 20-Дек-11, 11:23
	> hunspell, судя по документации, поддерживает Unicode, только где взять Unicode-словари > и aff-файлы к ним? google и навигация по сайту.
	Ответить \| Правка \| ^ к родителю #11 \| Наверх \| Cообщить модератору


	13. "Лингвистический парсер словарей"	+/–
	Сообщение от handler2006 (ok) on 20-Дек-11, 11:31
	> google и навигация по сайту. Потратил день и нервы - наверное, /dev/hands кривые, и я все делаю через /dev/ass
	Ответить \| Правка \| ^ к родителю #12 \| Наверх \| Cообщить модератору


	14. "Лингвистический парсер словарей"	+/–
	Сообщение от parad (??) on 22-Дек-11, 15:36
	не знаю как насчет либ, но для FTS-постгреса все *spell словари можно было сконвертировать в желаемую кодировку при помощи iconv и скормить в таком виде. фактически словарь - текстовой файл, с отсортированными построчно по алфавиту словами. тобишь смело можно предположить что каждая запись интерпретируется как набор байт и над всем этим работает бинарный поиск. попробывать проверить - дело 10мин, написать сюда и ждать ответ - день. развивай в себе экспериментатора и научись пользоваться гуглом - ты не первопроходец - расшаренного опыта в сети предостаточно.
	Ответить \| Правка \| ^ к родителю #13 \| Наверх \| Cообщить модератору