The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



"Facebook опубликовал открытую систему распознавания речи Wav..."
Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Изначальное сообщение [ Отслеживать ]

"Facebook опубликовал открытую систему распознавания речи Wav..."  +/
Сообщение от opennews (?), 22-Дек-18, 23:08 
Разработчики из лаборатории искусственного интеллекта Facebook AI Research представили (https://code.fb.com/ai-research/wav2letter/) первый выпуск (https://github.com/facebookresearch/wav2letter/releases) новой системы распознавания речи Wav2letter++ (https://github.com/facebookresearch/wav2letter/), построенной с использованием свёрточной нейронной сети. В отличие от опубликованного (https://www.opennet.me/opennews/art.shtml?num=47842) в январе начального прототипа, реализация wav2letter++ полностью переписана на языке C++ с использованием библиотек ArrayFire (https://github.com/arrayfire/arrayfire) и Flashlight (https://github.com/facebookresearch/flashlight) (первый прототип был в форме Torch-модуля на языке Lua).  Код проекта распространяется (https://github.com/facebookresearch/wav2letter) под лицензией BSD. Доступны уже натренированные модели (1 (https://s3.amazonaws.com/wav2letter/models/librispeech-glu-h...), 2 (https://s3.amazonaws.com/wav2letter/models/librispeech-glu-h...), 3 (https://s3.amazonaws.com/wav2letter/models/librispeech-glu-l...)) для английского языка.

Для распознавания в Wav2letter++ предложена новая (https://arxiv.org/abs/1812.07625) архитектура (https://arxiv.org/abs/1812.06864), основанная на использовании акустической и языковой моделей, созданных при помощи системы машинного обучения на базе свёрточной нейронной сети (https://ru.wikipedia.org/wiki/%D0%A1%D0%...) (CNN). Система использует метод посимвольного предсказания на основе разбора необработанной формы сигнала без предварительного разделения фонем при проведении машинного обучения. После фазы посимвольного разбора для определения слов применяется внешняя языковая модель, выполненная также на основе свёрточной нейронной сети. Задействованные в проекте функции низкоуровневой обработки звука основаны на библиотеки  Libsndfile (http://www.mega-nerd.com/libsndfile), а для цифровой обработки сигналов при помощи дискретного преобразования Фурье применяется библиотека FFTW (http://www.fftw.org/).


Для обучения в проекте реализована техника автоматического сегментирования, которая позволяет обучить систему на основе записи звука и текстовой транскрипции, без дополнительных аннотаций. Для работы декодировщика требуется только список слов и языковая модель - весовые характеристики букв выделяются из акустической модели, без необходимости подключения словарей фонетической лексики. Для ускорения проведения обучения поддерживается задействование GPU (CUDA) и кластерных систем (OpenMPI и TorchMPI).


Система демонстрирует хорошую производительность, которая позволяет по скорости конкурировать с решениями на базе рекуррентных нейронных сетей. По скорости обучения в некоторых ситуациях  Wav2letter++ более чем в два раза опережает другие оптимизированные фреймворки распознавания речи на базе алгоритмов машинного обучения. Время обучения линейно масштабируется в зависимости от числа GPU. Скорость декодирования  в Wav2letter++ на порядок опережает реализации OpenSeq2Seq и ESPNet при сопоставимом или меньшем уровне ошибок. На тестовом наборе LibriSpeech (http://www.openslr.org/12) система демонстрирует уровень ошибок 4.91-5% (в зависимости от настроек производительности), в то время как для распознавания человеком этот показатель составляет 5.83%,  при работе   Mozilla Voice (https://www.opennet.me/opennews/art.shtml?num=47648) (Deep Speech (https://github.com/mozilla/DeepSpeech)) - 5-6.5%, Google Speech - 6.64%, wit.ai - 7.94%, Bing Speech - 11.73%, Apple Dictation - 14.24%.


URL: https://code.fb.com/ai-research/wav2letter/
Новость: https://www.opennet.me/opennews/art.shtml?num=49837

Ответить | Правка | Cообщить модератору

Оглавление

Сообщения по теме [Сортировка по времени | RSS]


3. "Facebook опубликовал открытую систему распознавания речи Wav..."  +8 +/
Сообщение от DHCPep (?), 22-Дек-18, 23:55 
Подскажите незнающему, а вот этот продукт возможно на рядовой писюк без всяких там ускоряющих жпу поставить и условно:
1. Натравить его сперва на папку с звуковыми файлами для тренировки (как кстати указывать расшифрованный текст?)
2. После этого запускать на обработку произвольных звуковых файлов чтобы на выходе получать текстовик?

А то по ссылке на гитхаб прошёл, доки поглядел, вроде всё написано, но что делать неясно :(

Чтобы избежать излишних оффтопиков: Да, пусть я буду нубом :)

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

8. "Facebook опубликовал открытую систему распознавания речи Wav..."  +13 +/
Сообщение от Аноним (8), 23-Дек-18, 04:24 
Так не получится. Как минимум тебе ещё потребуется языковая модель, которую можно рассматривать условно как чёрный ящик, в который ты грузишь предложение (по букве, или по слову -- зависит от модели), а он тебе предсказывает продолжение, она нужна для того, чтобы, грубо говоря, взять возможные интерпретации невнятно произнесённого слова и ориентируясь на предложение в целом выбрать наиболее правдоподобную интерпретацию.

Во всём же остальном, я подозреваю всё тоже не сводится к "скормил программе несколько часов разговоров". В новости написано: "Для обучения в проекте реализована техника автоматического сегментирования, которая позволяет обучить систему на основе записи звука и текстовой транскрипции, без дополнительных аннотаций." То есть, этот ии самостоятельно может научится разбивать входной звуковой поток на куски вида "слова"/"фонемы", но ему всё равно потребуется какое-то количество записей с полной текстовой транскрипцией.

Ну а вообще, если тебе хочется поиметь что-то подобное, то я бы рекомендовал начать с чего-нибудь, что имеет полноценные туториалы, с чего-нибудь типа: https://www.youtube.com/watch?v=gGqVNuYol6o (если у тебя нет кошки или если ты не выпускаешь её на улицу, то ты можешь поискать какой-нибудь другой проект, который будет тебе приколен, их в интернете достаточно, сейчас каждый школьник собирает какой-нибудь проект поверх нейросетки... ну или не каждый, те школьники опеннета по-моему исключение из правила).
И я очень рекомендую начать с "попроще", потому что для того, чтобы завести Wav2letter++ тебе в любом случае придётся потратить немало времени, и ты можешь часть этого времени потратить на что-нибудь попроще, что позволит тебе хотя бы смутно понимать принципы, представлять себе из каких составных частей собираются такие приложения, понимать процесс в целом от разработки нейросетки до начала использования и тд. Начинать сразу с вещей, которые раз-раз и в продакшн не стоит. Можно, но не стоит.

Ответить | Правка | ^ к родителю #3 | Наверх | Cообщить модератору

40. "Facebook опубликовал открытую систему распознавания речи Wav..."  +4 +/
Сообщение от DHCPep (?), 23-Дек-18, 20:37 
Вот это ответ, так ответ! Всем ответам ответ! :)
Спасибо!
Ответить | Правка | ^ к родителю #8 | Наверх | Cообщить модератору

10. "Facebook опубликовал открытую систему распознавания речи Wav..."  +/
Сообщение от Анон Анонов (?), 23-Дек-18, 04:54 
В теории, эту штуку можно и в браузер встроить. Правда придётся потрудиться. Плюсы можно легко собрать в wasm, но для этого придётся выпилить работу с GPU, потоками, ассемблером, если есть, файловой системой. Отдельно нужно будет подготовить модель и загрузить её в браузер. Вроде есть форматы какие-то для этого.
Не берусь судить какой монстр получится, но нейросети уже давно встраивают в телефоны. А оффлайн распознавание голоса было бы неплохой идеей в плане приватности.
Ответить | Правка | ^ к родителю #3 | Наверх | Cообщить модератору

11. "Facebook опубликовал открытую систему распознавания речи Wav..."  +4 +/
Сообщение от commiethebeastie (ok), 23-Дек-18, 05:15 
Если именно встроить, то я думаю лучше использовать как библиотеку, а не извращаться как хипстеры.
Ответить | Правка | ^ к родителю #10 | Наверх | Cообщить модератору

14. "Facebook опубликовал открытую систему распознавания речи Wav..."  –1 +/
Сообщение от Андрей (??), 23-Дек-18, 08:17 
> Отдельно нужно будет подготовить модель и загрузить её в браузер. Вроде есть форматы какие-то для этого.
> Доступны уже натренированные модели (1, 2, 3) для английского языка.

Всего "ничего": 1.6 GB, 1.6 GB, 1.9 GB.

Ответить | Правка | ^ к родителю #10 | Наверх | Cообщить модератору

41. "Facebook опубликовал открытую систему распознавания речи Wav..."  +2 +/
Сообщение от Аноним (41), 23-Дек-18, 22:04 
Не надо ничего встраивать в браузер!!!!11
Ответить | Правка | ^ к родителю #10 | Наверх | Cообщить модератору

13. "Facebook опубликовал открытую систему распознавания речи Wav..."  +/
Сообщение от Аноним3 (?), 23-Дек-18, 07:31 
А есть ли что-то попроще, если не нужно распознавать речь, а только точно локализовывать начало и конец реплик и по возможности чей голос (просто номер), что важно если кусочки реплик накладываются?
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

46. "Facebook опубликовал открытую систему распознавания речи Wav..."  +/
Сообщение от Аноним (46), 24-Дек-18, 12:58 
не попроще (speaker recognition/speech recognition), попроще можно привязать к другой биометрии
Ответить | Правка | ^ к родителю #13 | Наверх | Cообщить модератору

47. "Facebook опубликовал открытую систему распознавания речи Wav..."  +/
Сообщение от Аноним (46), 24-Дек-18, 14:38 
вообщем, как-то так это выглядит: speaker diarization system (sad/vad + change point detection in time series + counting + indexing + segmentation + homogeneous model forming + reducing the dimensionality + clustering + re-segmentation + tracking)
Ответить | Правка | ^ к родителю #46 | Наверх | Cообщить модератору

50. "Facebook опубликовал открытую систему распознавания речи Wav..."  +/
Сообщение от Андрей (??), 26-Дек-18, 17:53 
Да-с, выходит как бы с нуля начинать.
Ответить | Правка | ^ к родителю #47 | Наверх | Cообщить модератору

51. "Facebook опубликовал открытую систему распознавания речи Wav..."  +/
Сообщение от Аноним (46), 26-Дек-18, 20:25 
https://pastebin.com/pystDU4C
в рф это уже делали и не раз
Ответить | Правка | ^ к родителю #50 | Наверх | Cообщить модератору

52. "Facebook опубликовал открытую систему распознавания речи Wav..."  +/
Сообщение от Аноним3 (?), 27-Дек-18, 01:28 
Спасибо! Но в списке, вроде, большинство научные пробы или общие библиотеки для работы с аудио: кое-что старое (yaafe, CLAM), кое-что активное (librosa).

По ключевому слову "Speaker Diarization" находится действительно кое-что. Самое интересное для получения общего представления было написано всего 7 дней назад!
https://medium.com/@jaspreetuseducation/speaker-diariza...
Speaker Diarization - Separation of Multiple Speakers in an Audio File.

Жаль, что готовое есть только онлайн от Гугла и других гигантов Амазон, Майкрософт.

Ответить | Правка | ^ к родителю #51 | Наверх | Cообщить модератору

53. "Facebook опубликовал открытую систему распознавания речи Wav..."  +/
Сообщение от Аноним (46), 27-Дек-18, 11:49 
самое интересное можно оставить на потом, в начале возможен модульный pipeline с максимальной разбивкой по задачам, там как раз старые библиотеки пригодятся даже sox c ffmpeg, только не ждите доброго от меня, старого дурака, вот еще вам https://www2.securecms.com/ICASSP2017/Papers/AcceptedPapers.asp http://www.redhenlab.org/home/the-cognitive-core-research-to...
Ответить | Правка | ^ к родителю #52 | Наверх | Cообщить модератору

19. "Facebook опубликовал открытую систему распознавания речи Wav..."  –1 +/
Сообщение от Аноним (19), 23-Дек-18, 11:46 
“facebook tracking how their libraries are used and implement features they can use for better user tracking”
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

36. "Facebook опубликовал открытую систему распознавания речи Wav..."  +/
Сообщение от corvuscor (ok), 23-Дек-18, 16:20 
>Для ускорения проведения обучения поддерживается задействование GPU (CUDA)

ArrayFire ведь поддерживает OpenCL в качестве бэкэнда.
TensorFlow, кстати, судя по ROCm 2.0, тоже научился.
Но нет, надо везде пихать проприетарщину.

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

39. "Facebook опубликовал открытую систему распознавания речи Wav..."  –2 +/
Сообщение от Аноним (39), 23-Дек-18, 17:18 
Без пяти минут неделя vs годами "production ready" еще и удивляются.
Ответить | Правка | ^ к родителю #36 | Наверх | Cообщить модератору

48. "Facebook опубликовал открытую систему распознавания речи Wav..."  –1 +/
Сообщение от Аноним (48), 24-Дек-18, 20:16 
OpenCL уже похоронили, теперь все верят в Vulkan
Ответить | Правка | ^ к родителю #36 | Наверх | Cообщить модератору

49. "Facebook опубликовал открытую систему распознавания речи Wav..."  +1 +/
Сообщение от Владимир (??), 26-Дек-18, 13:53 
С OpenGL не перепутал?
Ответить | Правка | ^ к родителю #48 | Наверх | Cообщить модератору

45. "Facebook опубликовал открытую систему распознавания речи Wav..."  +2 +/
Сообщение от Аноним (-), 23-Дек-18, 23:59 
> Facebook опубликовал открытую систему распознавания речи

Опять приперасты решили свои поделки на свободолюбивых хомячках потестить?

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

54. "Facebook опубликовал открытую систему распознавания речи Wav..."  +/
Сообщение от Аноним (54), 31-Дек-18, 11:06 
Натренированные модели от предыдущей версии, с этой не стыкуются.
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру