После двух лет разработки представлен (http://simon-listens.blogspot.ru/2012/12/simon-040.html) релиз системы распознавания речи Simon 0.4 (http://www.simon-listens.org), позволяющей организовать управление десктопом при помощи голосовых команд, без необходимости использования клавиатуры и мыши. Средства для голосового управления рабочим столом доступы для Windows и окружений на базе X11. Код системы распространяется (http://download.kde.org/stable/simon/0.4.0/) под лицензией GPLv2. Разработка Simon ведётся (https://projects.kde.org/projects/extragear/accessibility/si...) в рамках проекта KDE в составе рабочей группы KDE Accessibility.В составе проекта развиваются инструменты для создания голосовых и акустических моделей, распознавания речи и организации управления голосом. Кроме функций управления рабочим столом наработки проекта Simon также используются в таких областях как аутентификация по голосу, голосовые диалоговые системы, организация голосового управления роботами и различными аппаратными устройствами. Ключевой областью применения Simon является предоставление средств для работы с компьютером людей с ограниченными возможностями. Из интересных проектов, реализованных на базе Simon можно отметить робота ECHORD (http://www.youtube.com/watch?v=PDkEe4G4PX4) для помощи по дому и медиа-центр (http://youtu.be/35tyZntA9j4?t=3m24s) для дома престарелых.
<center><iframe width="640" height="360" src="http://www.youtube.com/embed/7AJ1xDbYMUY?rel=0" frameborder="0" allowfullscreen></iframe></center>
Процесс распознавания в Simon построен на статических алгоритмах - для начала поддержки нового языка достаточно сформировать акустическую и языковую модели, которые в совокупности составляют речевую модель. Если речевая модель уже создана, для начала распознавания команд достаточно пятиминутной тренировки для адаптации системы к особенностям речи конкретного пользователя. Simon может быть легко адаптирован для голосового управления любым приложением, в том числе для организации голосового ввода текста, что, например, позволяет обездвиженным инвалидам просматривать сайты и отправлять электронные сообщения.<center><iframe width="640" height="360" src="http://www.youtube.com/embed/95l__f--p2k?rel=0" frameborder="0" allowfullscreen></iframe></center>
Ключевые особенности новой версии:
- Проведена большая работа по улучшению юзабилити. Интерфейс стал более удобен и понятен, как для новичков, так и для давно знакомых с системой пользователей. Проведена реорганизация основного окна управления Simon, наиболее важные опции вынесены на основной базовый экран;
<center><a href="http://1.bp.blogspot.com/-F-InTzfWvY8/UN9tkCLiB7I/AAAAAAAAAO... src="http://www.opennet.me/opennews/pics_base/0_1356963432.png" style="border-style: solid; border-color: #e9ead6; border-width: 15px;" title="" border=0></a></center>- Поддержка нового формата (.sbm) для хранения базовых голосовых моделей и средства для интеграции с online-репозиториями базовых моделей GHNS существенно упростили начальную конфигурацию системы голосового управления. Для настройки Simon от установки до получения полностью работающей конфигурации теперь требуется менее пяти минут без проведения каких-либо предварительных действий;
<center><iframe width="640" height="360" src="http://www.youtube.com/embed/ghfMMYNOwXo?rel=0" frameborder="0" allowfullscreen></iframe></center>- Обеспечение поддержки CMU SPHINX (http://cmusphinx.sourceforge.net/) в качестве бэкенда для распознавания речи. Поддержка ранее доступных бэкендов для систем HTK и Julius продолжена в полном объёме, тем не менее новые скомпилированные для Simon модели по умолчанию рассчитаны на использование бэкенда SPHINX. Для сборки собственных речевых моделей больше нет необходимости в установке проприетарного пакета HTK. Необходимый для работы Simon бэкенд выбирается автоматически в зависимости от конфигурации текущей системы;
- Ключевой проблемой открытых систем распознавания речи всегда было отсутствие свободнодоступных высококачественных речевых моделей. Основным источником свободных акустических моделей для различных языков уже много лет является проект Voxforge (http://voxforge.org/home/dev), но качество этих моделей оставляет желать лучшего. Поэтому, кроме возможности работы с уже готовой моделью от проекта Voxforge, в версии Simon 0.4 добавлены средства для участия в улучшении акустических моделей Voxforge. В частности, Simon позволяет отправлять на сервер Voxforge результаты локальной тренировки голосовых моделей.
- Средства для учёта контекста в процессе распознавания речевых команд. В зависимости от изменения текущей ситуации для увеличения точности Simon может на лету переконфигурировать себя, включать и выключать дополнительные сценарии, микрофоны и данные, полученные в результате тренировки модели;
- Новая диалоговая система, позволяющая определять сценарии взаимодействия на языке JavaScript, интегрируемая с движками обработки данных Plasma, поддерживающая задание шаблонов и предоставляющая возможности по озвучиванию текста (text-to-speech);
- Для пользователей KDE представлен новый плазмоид "Simonoid" для запуска и управления Simon.
<center><a href="http://1.bp.blogspot.com/-p8j5wlpg87c/UN91HsE-xYI/AAAAAAAAAP... src="http://www.opennet.me/opennews/pics_base/0_1356965330.png" style="border-style: solid; border-color: #e9ead6; border-width: 15px;" title="" border=0></a></center>
URL: http://simon-listens.blogspot.ru/2012/12/simon-040.html
Новость: http://www.opennet.me/opennews/art.shtml?num=35731
https://www.youtube.com/watch?v=18iq0YbL4mw
https://www.youtube.com/watch?v=lu88J5JL8Hw
http://youtu.be/65rcmF3MDB0
На Voxforge русский язык есть. Можно попробовать...
Классный проект, реально полезный. Когда добавят в Kubuntu?
Удобнее мышка и клавиатура, чем орать на комп
а если нет рук? Все мышка удобнее?
> а если нет рук? Все мышка удобнее?Сейчас эти интерфейсы пихают куда ни попадя, и позиционируются они "для всех", а не для людей с физическими отклонениями. И работают, честно говоря, в лучшем случае через раз.
Это как если начнут выпускать ТОЛЬКО мониторы со шрифтом Брайля, кто-то напишет "Нафик не нужно, пока есть визуальные мониторы", а вы ответите "А если слепой? Всем визуальные удобнее?"
как сказать
в форточках несколько лет назад для ворда ставилось дополнение, позволявшее надиктовывать текст без клавиатуры. на англицком правда. и работало оно не через раз, а каждый раз
В голой консоли работать не будет. Неклассно.
А есть такое же но без гуя? Чисто под голосовое управление чем попало, типа кофеварки?
Угу, интересный вопрос. надо глядеть, как они там орхитектуру сваяли - едро + кедоспецифика или всё в одной куче. Предполагаю второе, конечно...
С интересом слежу за проектом, после того как про него была новость, что он под крыло KDE переходит. И очень здорово, что избавились от проприетарного бэкенда.
> улучшению юзабилитиулучшению удобства использования
Ну хоть кто-то ещё за чистоту русского языка борется! Спасибо!
>> улучшению юзабилити
> улучшению удобства использованияповышению удобства использования
обучить прогу осилил, а вот как ею пользоваться - нет. ниодну программу не могу настроить
Сири от богом проклятого Яббла ну никак покоя не дает :)))))))))))))))))
На сколько возможно применение видео-фильтров для повышения качества распознавания речи? как тут: http://www.youtube.com/user/RealSpeakerTV