1.3, DHCPep (?), 23:55, 22/12/2018 [ответить] [﹢﹢﹢] [ · · · ]
| +8 +/– |
Подскажите незнающему, а вот этот продукт возможно на рядовой писюк без всяких там ускоряющих жпу поставить и условно:
1. Натравить его сперва на папку с звуковыми файлами для тренировки (как кстати указывать расшифрованный текст?)
2. После этого запускать на обработку произвольных звуковых файлов чтобы на выходе получать текстовик?
А то по ссылке на гитхаб прошёл, доки поглядел, вроде всё написано, но что делать неясно :(
Чтобы избежать излишних оффтопиков: Да, пусть я буду нубом :)
| |
|
2.8, Аноним (8), 04:24, 23/12/2018 [^] [^^] [^^^] [ответить]
| +13 +/– |
Так не получится. Как минимум тебе ещё потребуется языковая модель, которую можно рассматривать условно как чёрный ящик, в который ты грузишь предложение (по букве, или по слову -- зависит от модели), а он тебе предсказывает продолжение, она нужна для того, чтобы, грубо говоря, взять возможные интерпретации невнятно произнесённого слова и ориентируясь на предложение в целом выбрать наиболее правдоподобную интерпретацию.
Во всём же остальном, я подозреваю всё тоже не сводится к "скормил программе несколько часов разговоров". В новости написано: "Для обучения в проекте реализована техника автоматического сегментирования, которая позволяет обучить систему на основе записи звука и текстовой транскрипции, без дополнительных аннотаций." То есть, этот ии самостоятельно может научится разбивать входной звуковой поток на куски вида "слова"/"фонемы", но ему всё равно потребуется какое-то количество записей с полной текстовой транскрипцией.
Ну а вообще, если тебе хочется поиметь что-то подобное, то я бы рекомендовал начать с чего-нибудь, что имеет полноценные туториалы, с чего-нибудь типа: https://www.youtube.com/watch?v=gGqVNuYol6o (если у тебя нет кошки или если ты не выпускаешь её на улицу, то ты можешь поискать какой-нибудь другой проект, который будет тебе приколен, их в интернете достаточно, сейчас каждый школьник собирает какой-нибудь проект поверх нейросетки... ну или не каждый, те школьники опеннета по-моему исключение из правила).
И я очень рекомендую начать с "попроще", потому что для того, чтобы завести Wav2letter++ тебе в любом случае придётся потратить немало времени, и ты можешь часть этого времени потратить на что-нибудь попроще, что позволит тебе хотя бы смутно понимать принципы, представлять себе из каких составных частей собираются такие приложения, понимать процесс в целом от разработки нейросетки до начала использования и тд. Начинать сразу с вещей, которые раз-раз и в продакшн не стоит. Можно, но не стоит.
| |
2.10, Анон Анонов (?), 04:54, 23/12/2018 [^] [^^] [^^^] [ответить]
| +/– |
В теории, эту штуку можно и в браузер встроить. Правда придётся потрудиться. Плюсы можно легко собрать в wasm, но для этого придётся выпилить работу с GPU, потоками, ассемблером, если есть, файловой системой. Отдельно нужно будет подготовить модель и загрузить её в браузер. Вроде есть форматы какие-то для этого.
Не берусь судить какой монстр получится, но нейросети уже давно встраивают в телефоны. А оффлайн распознавание голоса было бы неплохой идеей в плане приватности.
| |
|
3.14, Андрей (??), 08:17, 23/12/2018 [^] [^^] [^^^] [ответить]
| –1 +/– |
> Отдельно нужно будет подготовить модель и загрузить её в браузер. Вроде есть форматы какие-то для этого.
> Доступны уже натренированные модели (1, 2, 3) для английского языка.
Всего "ничего": 1.6 GB, 1.6 GB, 1.9 GB.
| |
|
|
1.13, Аноним3 (?), 07:31, 23/12/2018 [ответить] [﹢﹢﹢] [ · · · ]
| +/– |
А есть ли что-то попроще, если не нужно распознавать речь, а только точно локализовывать начало и конец реплик и по возможности чей голос (просто номер), что важно если кусочки реплик накладываются?
| |
|
2.46, Аноним (46), 12:58, 24/12/2018 [^] [^^] [^^^] [ответить]
| +/– |
не попроще (speaker recognition/speech recognition), попроще можно привязать к другой биометрии
| |
|
3.47, Аноним (46), 14:38, 24/12/2018 [^] [^^] [^^^] [ответить]
| +/– |
вообщем, как-то так это выглядит: speaker diarization system (sad/vad + change point detection in time series + counting + indexing + segmentation + homogeneous model forming + reducing the dimensionality + clustering + re-segmentation + tracking)
| |
|
|
|
6.52, Аноним3 (?), 01:28, 27/12/2018 [^] [^^] [^^^] [ответить]
| +/– |
Спасибо! Но в списке, вроде, большинство научные пробы или общие библиотеки для работы с аудио: кое-что старое (yaafe, CLAM), кое-что активное (librosa).
По ключевому слову "Speaker Diarization" находится действительно кое-что. Самое интересное для получения общего представления было написано всего 7 дней назад!
https://medium.com/@jaspreetuseducation/speaker-diarization-22121f1264b1
Speaker Diarization - Separation of Multiple Speakers in an Audio File.
Жаль, что готовое есть только онлайн от Гугла и других гигантов Амазон, Майкрософт.
| |
|
|
|
|
|
1.19, Аноним (19), 11:46, 23/12/2018 [ответить] [﹢﹢﹢] [ · · · ]
| –1 +/– |
“facebook tracking how their libraries are used and implement features they can use for better user tracking”
| |
1.36, corvuscor (ok), 16:20, 23/12/2018 [ответить] [﹢﹢﹢] [ · · · ]
| +/– |
>Для ускорения проведения обучения поддерживается задействование GPU (CUDA)
ArrayFire ведь поддерживает OpenCL в качестве бэкэнда.
TensorFlow, кстати, судя по ROCm 2.0, тоже научился.
Но нет, надо везде пихать проприетарщину.
| |
|
2.39, Аноним (39), 17:18, 23/12/2018 [^] [^^] [^^^] [ответить]
| –2 +/– |
Без пяти минут неделя vs годами "production ready" еще и удивляются.
| |
|
1.45, Аноним (-), 23:59, 23/12/2018 [ответить] [﹢﹢﹢] [ · · · ]
| +2 +/– |
> Facebook опубликовал открытую систему распознавания речи
Опять приперасты решили свои поделки на свободолюбивых хомячках потестить?
| |
|