Представлен (http://grasch.net/node/24) проект "Open Speech Initiative", в рамках которого планируется собрать группу разработчиков, заинтересованных в развитии полнофункциональной и качественной свободной системы распознавания речи. Инициатива будет развиваться под эгидой проекта KDE на сайте speech.kde.org (http://speech.kde.org).
Целью Open Speech Initiative является объединение усилий разрозненных исследователей и разработчиков в направлении создания универсальной системы распознавания речи, подходящей для разных областей применения, обладающей высокой точностью распознавания и большим словарём. Для достижение данной цели требуется объединение в едином сообществе различных категорий энтузиастов, от разработчиков ПО до лингвистов и специалистов по цифровой обработке сигналов.Open Speech Initiative будет курировать сообщество, координировать развитие и обеспечивать решение организационных вопросов. В настоящее время основная работа сосредоточена на низкоуровневых компонентах платформы и подготовке инфраструктуры и автоматизированных систем для оптимизации процесса построения более качественных акустических моделей. В планах на будущее также упомянуто создание пользовательского ПО, которое сможет выступать в роли диктофона, печатающего текст под диктовку, или автомачески формировать субтитры для видео.
В настоящее время к инициативе уже подключились разработчики платформы Simon (http://www.opennet.me/opennews/art.shtml?num=35731), позволяющей организовать управление десктопом при помощи голосовых команд без необходимости использования клавиатуры и мыши. В анонсе упоминается создание на базе Simon рабочего прототипа приложения с функциями диктофона, пригодного для организации речевого ввода текстовой информации. В настоящее время система уже достаточно успешно позволяет вводить через диктовку небольшие заметки, в том числе распознавая команды для начала нового абзаца, вставки знаков пунктуации и спецсимволов.
<center><iframe width="640" height="360" src="//www.youtube.com/embed/uItCqkpMU_k?rel=0" frameborder="0" allowfullscreen></iframe></center>
URL: http://grasch.net/node/24
Новость: http://www.opennet.me/opennews/art.shtml?num=38154
Отличная инициатива, на фоне постоянно появляющихся сообщений о форках то одного, то другого проекта, тут же напротив координация и консолидация усилий.
Успехов и скорейших релизов :)
Оно будет завязано на kdelibs что ли? Пришло время форкать!
> Оно будет завязано на kdelibs что ли? Пришло время форкать!В KDE5 не будет kdelibs как единого пакета. Там будет несколько десятков небольших независимых библиотек.
> Там будет несколько десятков небольших независимых kdelibs.fixed
Учитывая повадки КДЕшников - это в любом случае будет какой-нибудь жуткий бегемот, построенный по всем правилам энтерпрайзного ООП - ну там, полтысячи классов, пара десятков уровней в иерархии и тому подобное.
Зато возможность расширяемости, эти классы может использовать всё приладное ПО среды. Или лучше на каждый чих городить свой обособленный маленький велосипедик?
> Или лучше на каждый чих городить свой обособленный маленький велосипедик?именно так. если прога на маленький чих тянет здоровенную библиотеку, одну лишь возможность запуска которой приходится тюнинговать чтобы как-то ускорить, то это нездоровый подход к делу
А вот не надо пихать расширяемость и прочее пока нет явной потребности. На практике оказывается, что ее нет почти никогда. В данном случае приемлемым внешним апи, к примеру, будет несколько функций, желательно - extern (C). ЧТо-то вроде init, setInputCallback, setOutputCallback, shutdown.
конечно,лучше все втиснуть в две длиннющие портянки, каждая на полмиллиона строк кода. Чтобы между файлами меньше переключаться пришлось. И чтобы обязательно каждый класс или каждая процедура (зачем нам абстракции и всякое ООП?) ОБЯЗАТЕЛЬНО зависела от способа внутренней реализации (а не от предоставленного интерфейса) всех остальных классов и процедур в портянке - нам ведь надо чтобы ковырять это гуано остались только несколько "истинных гуру" - нам ведь не нужны в проекте ламеры, ноющие про макаронный код, прибитый гвоздями?
Можно подумать что ООП как-то защищает от макаронного кода, прибитого гвоздями.
> Можно подумать что ООП как-то защищает от макаронного кода, прибитого гвоздями.На чем угодно можно макароны писАть. Но некоторые методики и парадигмы проектирования и программирования позволяют проще этого избегать
> На чем угодно можно макароны писАть. Но некоторые методики и парадигмы проектирования
> и программирования позволяют проще этого избегатьжаль, что ООП к ним не относится.
Лучше не городить абстакции, если они никому реально не нужны. в 90% случаев они и оказываются ненужными.
> Отличная инициатива...Ещё бы, говорящие "Кеды" это вам не фиги воробьям показывать ! Молодцы !
>> Отличная инициатива...
> Ещё бы, говорящие "Кеды" это вам не фиги воробьям показывать ! Молодцы
> !Говорят как работают? :)))))))))))))))))))))))
На Windows Mobile 2003 уже была базовая система команд, типа набрать номер и т.п. На английском только, но с русским акцентом тоже понимала )
А вот о наборе голосом на русском произвольного текста я думаю мечтали бы многие.
Плюс можно плагины прикрутить будет, чтобы команды типа "запустить ракеты" и "прыгаем в варп" понимали ))
> На Windows Mobile 2003 уже была базовая система команд, типа набрать номер и т.п.Оно много где было, но...
1) Работало так, что лучше бы совсем не работало.
2) Оно проприетарное и нерасширяемое.
3) И наконец, оказалось что оно не так уж и востребовано юзверями.
Microsoft Voice "Recognition"
http://www.youtube.com/watch?v=c5VIgkOxam0
Распознавание голоса само по себе не ново. Ещё в начале нулевых были какие-то програмки которые после обучения неплохо распоздавали слова. И печать под диктовку была, и запуск запуск команд голосом.
Всё это уже давно есть, но до недавнего времени это не было востребовано.
Но сейчас все посмотрели на Сири и решили что распознавание голоса это будущее интерфейсов мобильных устройств.
Не собираюсь вступать в дискуссию о том что это, следование моде или только сейчас пришло время этой технологии. Могу придумать несколько аргументов в пользу каждого из вариантов, но по сути это ничего не меняет.
> Распознавание голоса само по себе не ново. Ещё в начале нулевых былиКаких, нaхeр, простите мой французский, нулевых? Вместе с Шуриком в 96-м году в университете ставили Dragon Dictate на винду 3.11.
>> Распознавание голоса само по себе не ново. Ещё в начале нулевых были
> Каких, нaхeр, простите мой французский, нулевых? Вместе с Шуриком в 96-м году
> в университете ставили Dragon Dictate на винду 3.11.Что не отменяет того факта что у нулевых оно тоже было.
Конкретные даты в данном случае не так-уж и важны, сути они не меняют.
Начинание похвальное, но что-то мне подсказывает, что будет оно работать где-то в застенках кровавой гэбни и прослушивать ваши же разговоры. Вон они гранты раздавали пару лет назад, как раз за систему с такой функциональностью
> Начинание похвальное, но что-то мне подсказывает, что будет оно работать где-то в
> застенках кровавой гэбни и прослушивать ваши же разговоры. Вон они гранты
> раздавали пару лет назад, как раз за систему с такой функциональностьюУ кровавой гэбни вполне справляются специализированные решения проприетарных вендоров.
Лезть в опенсорс им особого смысла нет.
> Начинание похвальное, но что-то мне подсказывает, что будет оно работать где-то в
> застенках кровавой гэбни и прослушивать ваши же разговоры. Вон они гранты
> раздавали пару лет назад, как раз за систему с такой функциональностьюУгу. NVDA тоже по заказу кровавой гэбни написана.
Системы от IBM для колл-центров уже лет несколько умеют поддерживать вполне человеческий диалог с абонентом, и распознвавание там 99.9% даже с кучей акцентов, насколько я помню. У гугла тоже весьма неплохо всё работает. Так что гэбня и сейчас не бедствует.А открытая разработка чего угодно - это о том, как дать в руки человеку то, что до этого было только у гэбни. От шифрования до самодельных ракет.
> Системы от IBM для колл-центров уже лет несколько умеют поддерживать вполне человеческий
> диалог с абонентом, и распознвавание там 99.9% даже с кучей акцентов,
> насколько я помню. У гугла тоже весьма неплохо всё работает. Так
> что гэбня и сейчас не бедствует.
> А открытая разработка чего угодно - это о том, как дать в
> руки человеку то, что до этого было только у гэбни. От
> шифрования до самодельных ракет.Open Nuclear Technology существует? А Open Rocket Sciense?
С открытым железом вообще проблема, это любой отрасли касается.
Вообще-то полный цикл расчета и изготовления твердотопливной ракеты вполне по зубам способному старшекласснику, как свидетельствует опыт многочисленных советских кружков моделистов-конструкторов.А палестинцы и боевые ракеты давно научились делать из дерьма и палок^w^w^w водопроводных труб и удобрений.
С ядерной же техникой проблемы не столько в закрытости, сколько в том, что при современном общетехническом уровне, чтобы собрать %все% нужные компоненты в условиях "режима нераспространения" самостоятельно, нужна промышленность немаленькой развитой страны или огромного концерна.
Оба упираются не в возможность открытой разработки, а в то, что гэбня не велит, а простого способа обойти пока не нашлось. Вот с деньгами - придумали биткоин, и то пока драчки с ним идут нешуточные - и прблемы отнюдь не с технической реализацией, а именно борьба с гэбнёй.
Технология не достигнет в ближайшие лет сто нужного качества. Если бы даже оно работало с 99% точностью, всё равно оставшийся процент сводит на нет все достоинства, поскольку невозможно быстро скорректировать ошибку. Посмотрите на демонстрацию этой технологии у эпла или гугла, чуваки нереально напрягаются, когда надиктовывают системе.
> Технология не достигнет в ближайшие лет сто нужного качества.Откуда цифра "сто"?
> Если бы даже оно работало с 99% точностью, всё равно оставшийся процент сводит на нет все достоинства, поскольку невозможно быстро скорректировать ошибку.
Это вопрос технический. Я вот тоже плохо воспринимаю устную речь и часто переспрашиваю. Так что мне, азбукой для глухонемых общаться? Или ограничиться перепиской?
> Посмотрите на демонстрацию этой технологии у эпла или гугла, чуваки нереально напрягаются, когда надиктовывают системе.
Лет 15 назад люди тоже нереально напрягались, обсчитывая гигабайные матрицы на двух-четырех метрах оперативки. А сейчас не напрягаются.
> Я вот тоже плохо воспринимаю устную речь и часто переспрашиваю.Кстати, отличный аргумент! Действительно, одно дело сравнивать распознавалку речи с приемом команд с клавиатуры, а другое -- с восприятием речи среднеподготовленного человека. В некоторых приложениях автораспознавалки и сейчас обгоняют оператора.
>с восприятием речи среднеподготовленного человека....СреднеподготовленнЫМ человекОМ.
>Если бы даже оно работало с 99% точностью, всё равно оставшийся процент сводит на нет все достоинства, поскольку невозможно быстро скорректировать ошибку.Почему же? Во-первых, задачи разные бывают. Для управления десктопом ("открыть Eclipse, открыть вчерашний проект, включить саундтрэк Джастина Бибера") 99% точности хватит. "Найти аудиофайл, где сказали такую-то фразу" — тоже можно. Да и вообще, система, которая удачно распознаёт 99% произвольной речи, при работе с ограниченным набором команд или поиске совпадающих фраз в готовых текстах покажет вообще офигенный результат. Автоматические субтитры для глухих — опять же, 99% — уже значительно лучше, чем ничего.
Во-вторых, что касается диктовки текстов, то, конечно, тексты придётся вычитывать. Но это для многих всё равно лучше, чем полностью набивать их с клавы. Тем более, что некоторые такие грамотные, что система, которая делает только 1% ошибок, будет писать тексты значительно лучше них.
А что при демонстрациях приходится напрягаться — ну так это же демонстрация, там гораздо более необходима точность распознавания, чем при нормальном использовании.
> некоторые такие грамотные, что система, которая делает только 1% ошибок, будет писать тексты значительно лучше них.Так всегда - придумывают для слепых/глухих/парализованных, а пользуются умственно отсталые.
Смысл оправдываться если 100% гарантии не даст никто ни на что в видемой части вселенной. Все программы имеют баги и все железо сбоит в 1% случаев использования.
> Смысл оправдываться если 100% гарантии не даст никто ни на что в
> видемой части вселенной. Все программы имеют баги и все железо сбоит
> в 1% случаев использования.В мире не существует гарантий. А лишь одни вероятности (с)
это сообщение продиктовано с galaxy ноут. напрягался несильно. точки расставлял potom.
> точки расставлял potomВ смысле: капал потом на сенсорный экран?
>> точки расставлял potom
> В смысле: капал потом на сенсорный экран?потом и кровью!
> потом и кровью!potom i krovju
В смысле, после ввода сообщения. С potom, конечно, косяк вышел :) . Но вот, что уж есть.В целом, распознаёт довольно живенько, даже с учётом того, что я пытался не разбудить домочадцев и говорил вполголоса. Для mission-critical, конечно, не канает, но в качестве записной книжки (ради которой, собственно, сын мне и дарил этот Galaxy Note) вполне сойдёт.
DNIWE
Как минимум, у бимеров системы отлично работают с неподготовленным человеком, и точность у них вроде даже выше 99%. Ну и реализовать редактирование можно удобно при желании - хоть "неопределенный артикль" используй как маркер повторного ввода.
Кстати, 99% не каждый человек выдаст
Ага. автоматический перевод с одного языка на другой - тоже плохо, лет через 100 может доведут более менее ло нормального решения...
Но это не причина не пользоваться гугл-транслейтом к примеру...)))
Я бы спрогнозировал, что переводчики-выпускники ливановских вузов деградируют ниже автопереводчиков гораздо быстрее, чем за 100 лет.
> Если бы даже оно работало с 99% точностью…то это было бы круче, чем «распознавалка» у большинства людей.
> всё равно оставшийся процент сводит на нет все достоинства
> поскольку невозможно быстро скорректировать ошибкублагодарю, посмеялся. это при 99%-то «невозможно»? срочно съешь антиупорина.
Если б гугле сейчас выложила свой код для распознавания речи на паблик для использования в "частном облаке", это была бы _РЕВОЛЮЦИЯ_!
> Если б гугле сейчас выложила свой код для распознавания речи на паблик
> для использования в "частном облаке", это была бы _РЕВОЛЮЦИЯ_!Это была бы дурость. Ключ от квартиры, кстати, тебе не дать? Где девки лежат?
Если девки уже собранные - давай, а если их еще компилировать надо - ну его нафиг.
http://youtu.be/c9jk3P0GqLU
Я бы присоединился, если бы не KDE. А так, продолжу пилить свою...
Ай-яй. Я терпеть не могу KDE. Но тем не менее, некоторые вещи у них совершенно выдающиеся, к примеру OwnCloud, которым пользуюсь ежедневно, и за который благодарен.
Не исключаю, что, может быть, этим ребятам и помогу чем-нибудь.
Понимаешь, в этом и есть смысл СПО. Даже если продукт целиком тебе не по нраву, все равно можно найти кусочки, которые великолепны.
и Krusader еще классное приложение у них.
Пожалуй. Сам не юзал, но если работает для тебя - то отлично.
> Пожалуй. Сам не юзал, но если работает для тебя - то отлично.Попробуй. Под Гномом тоже работает (хотя и тянет кучу библиотек).
Втом и вся прелесть СПО что из гоуна можно свободно орехи выковыривать. А у проприетастов орехи не всегда в продукте присутствуют и ни вынуть, ни добавить нельзя.
> Втом и вся прелесть СПО что из гоуна можно свободно орехи выковыривать.
> А у проприетастов орехи не всегда в продукте присутствуют и ни
> вынуть, ни добавить нельзя.А можно гоуно отдельно, орехи отдельно? Как и принято среди сапиенсов, а не среди шимпанзе?
Когда обезьяна взяла в руки палку и пошла добывать орехи, это был первый шаг к тому чтобы стать человеком.
> Когда обезьяна взяла в руки палку и пошла добывать орехиметодом отнятия у другой обезьяны, которая их вырастила.
> Я бы присоединился, если бы не KDE. А так, продолжу пилить свою...Если бы не твоя кедофобия, твоя система имела бы шанс быть допиленной до рабочего состояния. И иметь больше одного пользователя.
А так - нет.
а так она будет допилена на половину и со временем похоронена под кучей кдешного дерьма.
> И иметь больше одного пользователя.лично я не люблю, когда система имеет пользователей.
Пока русского нет, для меня не нужно. Ну или если эта штука сможет мой акцент понять :)
> Пока русского нет, для меня не нужно. Ну или если эта штука
> сможет мой акцент понять :)поддерживаю, без русского не айс и да еще бы токи пону добавили вообще круто )
Такие проекты надо на http://www.freedesktop.org/, а не привязывать к KDE.
> Такие проекты надо на http://www.freedesktop.org/, а не привязывать к KDE.наверное из за бюрократии так просче а если что путное получится то можно и на орг за орг и т.д., отличный проект и результат когда комп понимает тя с пол слова это то что мне нужно ибо чепятать не оч нравится с децтва, граматика все такое, пунктуация и т.д. муторное дело вообщем а тут все сама система сделает и партится не надо куда какую запятую втыкать и точку.
Да, заметно.
> Да, заметно.у существа просто мозг военно-полевого облегчённого образца. существо надеется, что это можно решить всякими протезами.
> Такие проекты надо на freedesktop.org/, а не привязывать к KDE.Ну, они же извинились:
"""Other projects can use Simon too, he said, noting that there is an informal agreement that GNOME will work on the Orca screen reader, while Simon (which is a KDE project) will work on speech recognition. It doesn't make sense for there to be another project doing open source speech recognition, he said. --- lwn.net/Articles/560086/
И кстати, да, ГНОМ замахивае^Wпилит всю accessibility, а не 1 программу [с победными пресс-релизами о намерЕниях]. lwn.net/Articles/519617/ lwn.net/Articles/473007/ и пр.
Впрочем, ни имеющейся результативности, ни разделения труда это не [от]меняет.
cmu sphinx уже есть, почему нельзя было взять его?
> cmu sphinx уже есть, почему нельзя было взять его?Это же инициатива, а не строго определённый проект с определённой кодовой базой. Решат использовать Sphinx — возьмут, наверное.
simon может работать на движке sphynx, так что его никто не выбрасывает.
Задача нужная и интересная, только раз это начали кдешники то вряд ли с этого будет толк
почему все вспоминают только про гугл? Недавно яндекс сделал распознавание русского языка. http://api.yandex.ru/speechkit/
ИМХО, проще на клавиатуре быстро научиться печатать, чем говорить чётко, так, чтобы тебя система понимала.
Есть люди, к примеру, которым нечем печатать (
Странные какие то инициативы, тестировал давненько Simon 0.4 под винду - жутко большая и непонятная вещь, что где крутить и настраивать я не понял, заработать система так и не заработала.Хотя есть же компания Nuance (www.nuance.com), по моему это единственная компания обладающая реальной рабочей системой распознавания голоса на разных языках, Google использует её наработки, боле того в оффлайн распознавании на андроиде используется ядро Nuance.
Есть еще проект MSpeech (https://code.google.com/p/mspeech/) по распознаванию голоса и управлению компом, проект сырой и использует google Для распознавания, но в принципе вполне так рабочий.
*свободной* системыТо, что может работать только через чужой сервер, свободным не является.
Не вижу проблемой купить готовые исходники той же Nuance вместе с интелектуальной собственностью и опубликовать их как свободные. Google так делает. Это проще и быстрее чем нанимать толпу разрабов, платить им ЗП и ждать чуда.
> Не вижу проблемой купить готовые исходники той же Nuance вместе с интелектуальной
> собственностью и опубликовать их как свободные. Google так делает. Это проще
> и быстрее чем нанимать толпу разрабов, платить им ЗП и ждать
> чуда.и когда от тебя ждать этих опубликованых исходников? ты же проблемы тут не видишь? ну и сделай.
> В настоящее время система уже достаточно успешно позволяет вводить через диктовку небольшие заметкиДа ладно? На русском??
Опробую
Говорите транслитом.
двадцать первый век на дворе
пора бы уже и мысли читать
https://en.wikipedia.org/wiki/Thought_identificationДля (несвободных) устройств Emotiv: https://github.com/qdot/emokit https://github.com...
(библиотека по второй ссылке только даёт расшифрованный raw поток данных от датчиков)
Ну дык - а дальше обработка всякая - OpenVIBE и прочее. Мысли, впрочем, этим читать нельзя в принципе.На самом деле от практического применения оно адски далеко пока, не исключая и закрытый код - у того же эмотива распознавалка эмоций работает из рук вон плохо. Для игрушек, как замена wasd, или чтобы чтобы сделать пыть-семь команд как замена хоткеям - нормально, а местами и хорошо, а дальше - поле для экспериментов.
simon проект конечно хороший, но уж больно муторно его настраивать. Если его заточат под управление KDE, это будет отлично
"Горыныч" FTW!Wait, oh shi-- (https://ru.wikipedia.org/wiki/Konqi)
P.S. Ну что, пусть и kde поломает зубы об эту задачу. За последние 15 лет в области голосового управления так ничего приличного и не придумали. (ok, google glass, search... Whatta your doin? Undo, stupid bitch!)
не придумали, т.к. не нужно оно. А игрушку для объезьянок в смарты засунули, этого вполне достаточно.
Нужно: http://dustycloud.org/blog/emacslisten/
О проекте Simon знаю давно, в принципе было бы шикарно разработать свободный синтезатор речи, насобирать бабла на кикстартере, чтобы качеством он мог поиметь коммерческие аналоги.
Вообще-то синтезатор речи - это нечто противоположное тому, что анонсировано.
Печатать намного быстрее, и менее утомительней чем диктовать.
https://en.wikipedia.org/wiki/Repetitive_strain_injury
Оно в принципе есть, но вообще-то это экзотика, то есть встречается редко. Ну и если заранее озаботиться (что включает нормальное рабочее место и клавиатуру, а не тумбочку с ноутбуком), то этой болячки, как и многих других, не будет.
За тумбочками работать как-то не доводилось, а вот "мышковать" полный рабочий день - таки да (полиграфическая верстка, невзирая на использование горячих клавиш, задействует мышь не хуже, чем какие-нибудь шутеры).
Сейчас за верстку даже браться бы не стал - боли в запястье довольно быстро вынудят бросить это дело.
Пишу с нормальной клавиатуры, рядом с которой - планшет от Wacom, чтобы не использовать мышь без острой необходимости. До пенсии мне еще ой как далеко...
> https://en.wikipedia.org/wiki/Repetitive_strain_injuryдумаю страничку в википедии что случается с горлом у тех кто читает "горловые" часы профессионально ты сам найдёшь?
дело в том что всё это мечты человека никогда не пробовавшего отговорить лекции 4 подряд... так вот поверь, что напечатать то что можно успеть сказать за 4 пары можно намного быстрее.
Я думал об одном пользователе Emacs уже с RSI.