1.11, nshmyrev (ok), 23:59, 01/03/2019 [ответить] [﹢﹢﹢] [ · · · ]
| +1 +/– |
Что не так с речью в Мозилле
Common Voice:
1) собираются голоса молодых людей мужского пола 20-30 лет, нет женских, детских, нет голосов старшего возраста.
2) тексты для записи ограничены тысячей предложений, нет вариативности словаря, в дальнейшем будут трудности со словами.
3) записи распространяются в mp3, что вносит искажения в голосовой сигнал. Оригиналы не дают, видимо, не хотят конкуренции.
4) традиционно вместо того, чтобы развивать существующий проект (voxforge) запилили свой.
5) проверка записей делается вручную, хотя может делаться автоматическими средствами.
6) сейчас таких данных можно просто накачать с youtube за пару часов в 10 раз больше, чем они собрали за год для всех языков.
DeepSpeech
1) взяли чужую технологию от Baidu
2) за пару лет ничего не сделали, даже не добились нормальной точности, точность гораздо хуже передовых результатов.
3) зато кричат о себе на всех углах, получили европейский грант
4) когда стало поджимать, скопировали втихушку чужую библиотеку libctcdecode, не упомянув автора, выкинув весь свой предыдущий код
5) декодер всё ещё требует 4гб памяти, работает очень медленно
7) в коммитах бесконечно переделывают справку и конфигурационные файлы, ни одного реального улучшения. ну ещё обертки для языков пишут
8) модели не может натренировать простой любитель, нужен суперкомпьютер с 8 GPU
В итоге этот проект недалеко ушёл от предыдущего (мобильной ОС)
| |
|
2.13, nshmyrev (ok), 00:15, 02/03/2019 [^] [^^] [^^^] [ответить]
| +1 +/– |
Ну и по синтезу (mozilla/TTS)
1) Опять скопировали чужой проект на github, назвали своим. Автору пришлось напоминать https://github.com/mozilla/TTS/issues/2
2) Куча хороших проектов на тему существует, до сих пор пилят "своё". Потихоньку копируют, что другие сделали, например, Tacotron2 внесли (скопировали) только сегодня, сходимость моделей была никакая.
3) Wavenet так и не добавили.
| |
|
|
2.10, Аноним84701 (ok), 22:27, 01/03/2019 [^] [^^] [^^^] [ответить]
| +/– |
> Пол
> 41% Мужской
> 10% Женский
Это opt-in данные:
https://voice.mozilla.org/en
см. в самом низу (3 срина, за графиками, логином, аж под картинкой с роботом), "Optional demographic data: sex/age".
Спрятано хорошо -- если не знать, то можно запросто пройти на "запись"/"прослушивание" и не даже не подозревать о своем "упущении".
| |
|
|
2.5, Аноним84701 (ok), 21:18, 01/03/2019 [^] [^^] [^^^] [ответить]
| +/– |
>> русский язык отсутствует
> Понятно.
.
>> As a community-driven project, people around the world who care about having a voice dataset in their language have been responsible
>> Our latest additions include Dutch, Hakha-Chin, Esperanto, Farsi, Basque, and Spanish. In some cases, a new language launch on Common Voice is the beginning of that language’s internet presence
https://discourse.mozilla.org/t/russian-speech/18572
> The best way to contribute right now would be to find and review (or write) sentences in the public domain, and submit at PR to the mai
> и … тишина
Заговор, не иначе!
| |
|
|
|
3.14, НяшМяш (ok), 00:22, 02/03/2019 [^] [^^] [^^^] [ответить]
| +2 +/– |
Видать нашёлся чуваш, который не знает про опеннет. А то вместо записи семплов голоса мог бы проводить время с пользой в комментариях.
| |
|
|
5.16, Аноним (-), 00:57, 02/03/2019 [^] [^^] [^^^] [ответить]
| –3 +/– |
А всё потому что местечковые диалекты нужны не самим "чувашам" и "бурятам", а для поддержки тезиса многонациональности СССРФ.
| |
|
|
|
|
|