Обновление голосовых данных Mozilla Common Voice 18.0

22.06.2024 23:20

Компания Mozilla обновила наборы голосовых данных Common Voice, включающие примеры произношения более 200 тысяч человек. Данные опубликованы как общественное достояние (CC0). Предложенные наборы можно использовать в системах машинного обучения для построения моделей распознавания и синтеза речи. По сравнению с прошлым обновлением объём речевого материала в коллекции увеличился с 31.1 до 31.8 тысяч часов речи, из которых 20.8 тысяч часов прошли процедуру проверки. Число поддерживаемых языков увеличилось со 124 до 129 (добавлены языки африканских племён коса, календжин, кидавида, долуо и тсвана).

В подготовке материалов на английском языке приняли участие 93.3 тысячи человек, надиктовавших 3554 часа речи (было 92.3 тысячи участников и 3508 часов). Набор для белорусского языка охватывает 8400 участников и 1815 часов речевого материала (было - 8291 участник и 1766 часов), русского языка - 3241 участник и 277 часов (было 3206 участников и 274 часа), узбекского - 2189 участников и 265 часов (было 2170 участникоа и 264 часа), украинского языка - 1091 участник и 113 часов (было 1075 участников и 112 часов).

Проект Common Voice нацелен на организацию совместной работы по накоплению базы голосовых шаблонов, учитывающей всё разнообразие голосов и манер речи. Пользователям предлагается озвучить выводимые на экран фразы или оценить качество данных, добавленных другими пользователями. Накопленную базу данных c записями различного произношения типовых фраз человеческой речи без ограничений можно использовать в системах машинного обучения и в исследовательских проектах.

исправить +20 +/–

Лицензия: CC BY 3.0

Короткая ссылка: https://opennet.ru/61422-commonvoice

Ключевые слова: commonvoice

При перепечатке указание ссылки на opennet.ru обязательно

Обсуждение (13)

1.1, Константавр (ok), 00:51, 23/06/2024 [ответить] [﹢﹢﹢] [ · · · ]	–5 +/–
>русского языка - 3241 участник и 277 часов Что-то мало. Чувствуется, что указа свыше небыло.

2.16, Анонус (?), 09:37, 23/06/2024 [^] [^^] [^^^] [ответить]	+3 +/–
Для русского уже есть отличные модели распознавания речи. Поэтому мало интереса к развитию новых. А вот для разных малых языков пока потребность в датасетах и моделях есть.

3.17, Аноним (17), 13:52, 23/06/2024 [^] [^^] [^^^] [ответить]	–1 +/–
Английский очень малый язык.

4.22, Анонус (?), 18:13, 23/06/2024 [^] [^^] [^^^] [ответить]	+2 +/–
> Английский очень малый язык. Интересно, а шотландцы понимают ямайцев?

3.18, Васян из васяна (?), 17:09, 23/06/2024 [^] [^^] [^^^] [ответить]	+/–
какие?

4.21, Анонус (?), 18:12, 23/06/2024 [^] [^^] [^^^] [ответить]	+2 +/–
> какие? https://alphacephei.com/nsh/2024/04/14/russian-models.html

5.24, Аноним (24), 18:20, 25/06/2024 [^] [^^] [^^^] [ответить]	+/–
это все про распознавание, а как с синтезом?

5.25, Аноним (24), 18:22, 25/06/2024 [^] [^^] [^^^] [ответить]	+/–
внезапно, лучшая моделька с этой страницы натренирована на Common Voice

6.26, Аноним (24), 18:32, 25/06/2024 [^] [^^] [^^^] [ответить]	+/–
(окей, внезапно ещё и на своем новом открытом датасете)

3.23, Аноним (24), 18:19, 25/06/2024 [^] [^^] [^^^] [ответить]	+1 +/–
модели "есть", все среднего качества кроме закрытых коммерческих (например, яндексовых или тинькова), а открытых качественных датасетов - нет

4.27, Аноним (24), 18:33, 25/06/2024 [^] [^^] [^^^] [ответить]	–1 +/–
(ну и сбер догнал яндекс/тинек, 6 лет не прошло с анонса)

5.28, Анонус (?), 19:41, 25/06/2024 [^] [^^] [^^^] [ответить]	+/–
> (ну и сбер догнал яндекс/тинек, 6 лет не прошло с анонса) А ведь есть еще VK, ЦРТ, Наносемантика, Silero, МТС. Так еще и многие иностранные системы ASR поддерживают русский.

5.29, Бывалый Смузихлёб (ok), 15:38, 26/06/2024 [^] [^^] [^^^] [ответить]	+/–
сбер, яндекс.. да тот же билайн - раскалёнными кочергами по голым задам хреначить надо за их "успехи". Те проблемы, что ещё 10-15 лет назад решались за 0,5-1мин с оператором - нынче решаются за 10-15-30 мин с "ИИ" и огромной горой потраченных нервов За подобное уже надо бы вводить статью "предлагаю вам ознакомиться со справкой.. "( а с хрена ли тогда звонок, если "справка" его не покрывает и надо решить лично !? )

игнорирование участников | лог модерирования

Добавить комментарий

Текст: