Facebook опубликовал звуковой кодек EnCodec, использующий машинное обучение

02.11.2022 17:17 (MSK)

Компания Meta/Facebook (запрещена в РФ) представила новый звуковой кодек EnCodec, использующий методы машинного обучения для повышения степени сжатия без потери качества. Кодек может применять как для потоковой передачи звука в режиме реального времени, так и для кодирования для последующего сохранения в файлах. Эталонная реализация EnCodec написана на языке Python с использованием фреймворка PyTorch и распространяется под лицензией CC BY-NC 4.0 (Creative Commons Attribution-NonCommercial), допускающей использование только в некоммерческих целях.

Для загрузки предложены две готовые модели:

Каузальная модель, использующая частоту дискретизации 24 kHz, поддерживающая только монофонический звук и натренированная на разноплановых звуковых данных (подходит для кодирования речи). Модель может использоваться для упаковки звуковых данных для передачи с битрейтами 1.5, 3, 6, 12 и 24 kbps.
Некаузальная модель, использующая частоту дискретизации 48 kHz, поддерживающая стереозвук и натренированная только на музыке. Моделью поддерживаются битрейты 3, 6, 12 и 24 kbps.

Для каждой модели подготовлена дополнительная языковая модель, позволяющая добиться значительного увеличения степени сжатия (до 40%) без потери качества. В отличие от ранее развиваемых проектов по применению методов машинного обучения для сжатия звука, EnCodec может применяться не только для упаковки речи, но и для сжатия музыки с частотой дискретизации 48 kHz, соответствующей уровню звуковых CD. По заявлению разработчиков нового кодека при передаче с битрейтом 64 kbps по сравнению с форматом MP3 им удалось примерно в десять раз увеличить степень сжатия звука с сохранением того же уровня качества (например, когда при использовании MP3 требуется полоса пропускания в 64 kbps, для передачи с тем же качеством в EnCodec достаточно 6 kbps).

Архитектура кодека построена на базе нейронной сети с архитектурой "трансформер" и основывается на четырёх звеньях: кодировщика, квантователя, декодировщика и дискриминатора. Кодировщик извлекает параметры голосовых данных и преобразует их упакованный поток с более низкой частотой кадров. Квантователь (RVQ, Residual Vector Quantizer) преобразует выдаваемый кодировщиком поток в наборы пакетов, сжимая информацию в привязке к выбранному битрейту. На выходе квантователя образуется сжатое представление данных, пригодное для передачи по сети или сохранения на диск.

Декодировщик раскодирует сжатое представление данных и восстанавливает исходную звуковую волну. Дискриминатор улучшает качество генерируемых образцов (sample) с учётом модели человеческого слухового восприятия. Независимо от уровня качества и битрейта применяемые для кодирования и декодирования модели отличаются достаточно скромными требованиями к ресурсам (вычисления, необходимые для работы в режиме реального времени, производятся на одном ядре CPU).

исправить +3 +/–

Лицензия: CC BY 3.0

Наводку на новость прислал Artem S. Tashkinov

Короткая ссылка: https://opennet.ru/58029-encodec

Ключевые слова: encodec, facebook, audio, codec

При перепечатке указание ссылки на opennet.ru обязательно

Обсуждение (61)

1.7, Аноним (7), 17:40, 02/11/2022 [ответить] [﹢﹢﹢] [ · · · ]	–4 +/–
Ни один человек, если он хотя бы имеет IQ как у хлебушка, не станет внедрять в качестве кодека ту *****, которую сможет распутать только неизвестно как обученный и устроенный внутри ИИ Традиционные кодеки практичны, надёжны и работают по очевидному алгоритму на всех этапах который легко воспроизвести с нуля

2.15, topin89 (ok), 18:06, 02/11/2022 [^] [^^] [^^^] [ответить]

+13 +/–

Я понимаю ощущения, но думаю дело в хайпе нейронок vs классические методы. Вот возьмём JPG обычный. Там внутре есть матрица квантования (умно звучит, но там просто целочисленно делят поэлементно), и подобрали её те же нейронки, только биологические. Хотя могли и полным перебором, и машинным обучением и как угодно ещё.

Даже банальная конверсия цветного изображения в чб основана на непонятных магических коэффициентах, собраных когда-то давно буквально на глазок.

Лично помню случай, когда портативный Blender был сначала сжать через ZIP, потом 7Z -- и это сработало вопреки всему, и не предскажешь такое, хоть и нет там нейронок.

В нейронках как раз архитектура простая, но коэффициентов не 5-100, а >9000. И то, что подбирали их через машинное обучение, а не наугад -- детали.

Сами по себе натренированные нейронки работают предсказуемо, и если 10 раз подать на вход один и тот же файл, 10 раз на выходе будет один и тот же результат. Только подбор коэффициентов случаен.

3.32, Аноним (32), 19:01, 02/11/2022 [^] [^^] [^^^] [ответить]	+1 +/–
У тебя всё в кашу перемешалось. Что касается "цветного изображения в чб", дак это только для тебя магия, а для остальных - коэффициенты вытекают из чувствительности глаза к разным цветам.

4.64, kai3341 (ok), 02:38, 03/11/2022 [^] [^^] [^^^] [ответить]	+9 +/–
> коэффициенты вытекают из чувствительности глаза к разным цветам. Очевидно, этот глаз хранится в Бюро Мер и Весов. Хочешь сказать, все люди воспринимают цвета одинаково?

5.72, Аноним (72), 09:21, 03/11/2022 [^] [^^] [^^^] [ответить]	+/–
Усредняют. Правда, некоторая дельта есть - потому и модели разные.

2.28, Аноним (28), 18:51, 02/11/2022 [^] [^^] [^^^] [ответить]	+3 +/–
> работают по очевидному алгоритму на всех этапах Экспертиза уровня опеннет. Открой исходники любого кодека и почитай. Ротом расскажешь об «очевидных алгоритмах».

3.84, муу (?), 12:13, 04/11/2022 [^] [^^] [^^^] [ответить]	+/–
> Экспертиза уровня опеннет ну если для тебя они не очевидны вали учить математику с физикой, эксперт уровня "ответы mail.ru" ты наш

4.89, topin89 (ok), 22:31, 06/11/2022 [^] [^^] [^^^] [ответить]	+/–
> ну если для тебя они не очевидны вали учить математику с физикой, > эксперт уровня "ответы mail.ru" ты наш То-то и оно, математика нейронок проще, чем математика условных AV1 или OGG.

2.53, Аноним (53), 21:51, 02/11/2022 [^] [^^] [^^^] [ответить]	+1 +/–
Ты ошибаешьшься Если кодек - lossless, то ничего не мешает при улучшении моделе... большой текст свёрнут, показать

2.70, Diozan (ok), 08:45, 03/11/2022 [^] [^^] [^^^] [ответить]	+1 +/–
>>>Традиционные кодеки практичны, надёжны и работают по очевидному алгоритму на всех этапах который легко воспроизвести с нуля Вот только режут звук со сложным спектром, ибо не обучены вычленять звук бас-гитары или вокала или скрипки из общего потока. И как результат, например, тарелочки не звенят, а цыкают, а из состава симфонического оркестра просто тупо выпадают некоторые инструменты.

3.77, Аноним (77), 10:16, 03/11/2022 [^] [^^] [^^^] [ответить]	+1 +/–
Очередная модно-молодёжная нейронка, досочиняющая нёх на ходу, проблему не решит. Так что ходи лучше в филармонию и слушай вживую.

4.90, topin89 (ok), 22:36, 06/11/2022 [^] [^^] [^^^] [ответить]	+/–
> Очередная модно-молодёжная нейронка, досочиняющая нёх на ходу, проблему не решит. Так что > ходи лучше в филармонию и слушай вживую. Давно изучал как работают самые мощные сжимающие алгоритмы вроде PAQ. Там, внезапно, тоже нейронка, c 2005 года. Такие алгоритмы сжатия сначала получают предсказанный (сочинённый) результат, находят разницу между предсказанным и реальным, и её уже сжимают.

1.8, pashev.ru (?), 17:40, 02/11/2022 [ответить] [﹢﹢﹢] [ · · · ]	+/–
А линейная регрессия — это ведь тоже машинное обучение?

2.38, Онанистмус (?), 19:45, 02/11/2022 [^] [^^] [^^^] [ответить]	+1 +/–
Да. Это первое чему учат.

2.57, _dz (?), 23:14, 02/11/2022 [^] [^^] [^^^] [ответить]	+/–
Зависит от того, как считается. Если подбором параметров - да, если решается в явном виде - нет.

3.65, pashev.ru (?), 03:01, 03/11/2022 [^] [^^] [^^^] [ответить]	–1 +/–
Ты тут нам маркетинг не хулюгань!

1.10, pashev.ru (?), 17:44, 02/11/2022 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Опять что-то типа речь—текст—речь?

2.42, Аноним (32), 19:59, 02/11/2022 [^] [^^] [^^^] [ответить]	+/–
Словарь Эллочки-людоедки составлял 30 слов, но ими она могла выразить практически любую свою мысль.

3.47, Аноним (47), 21:02, 02/11/2022 [^] [^^] [^^^] [ответить]	+3 +/–
хватит и двух: хохо, парниша!

4.73, гоквч (?), 09:39, 03/11/2022 [^] [^^] [^^^] [ответить]	+3 +/–
я есть Грут

5.91, Аноним (47), 01:29, 07/11/2022 [^] [^^] [^^^] [ответить]	+/–
вижу 3

2.56, X (?), 23:11, 02/11/2022 [^] [^^] [^^^] [ответить]	+/–
Типа отправил музыку, получил акопеллу на выходе?

3.63, Аноним (32), 00:47, 03/11/2022 [^] [^^] [^^^] [ответить]	+/–
с нейросеткой возможно всё.

3.79, n00by (ok), 10:50, 03/11/2022 [^] [^^] [^^^] [ответить]	+3 +/–
Типа смотрим видосик, а там поют: Денег мало, длинный шмель, Ты в кибитку не ходи!

1.19, annonn (?), 18:14, 02/11/2022 [ответить] [﹢﹢﹢] [ · · · ]	+/–
(Не)удивительно читать подобное нытье. Фейсбук сделал для себя какой-то алгоритм, который подходит под их задачи и ограничения. Они решили поделиться результатом со всем миром. Если тебе подходит - пользуйся на здоровье, если не подходит - не пользуйся. Вроде весь опенсорс так работает.

2.23, Вы забыли заполнить поле Name (?), 18:34, 02/11/2022 [^] [^^] [^^^] [ответить]	+4 +/–
Это не нытье, а критика. Учитесь различать. Или все должны восхвалять проекты fb?

3.26, annonn (?), 18:44, 02/11/2022 [^] [^^] [^^^] [ответить]	+/–
Критику увидел только в паре сообщений - там где есть обоснования и примеры "почему это плохо" А остальные просто ноют.

4.59, Аноним (59), 00:36, 03/11/2022 [^] [^^] [^^^] [ответить]	+3 +/–
И почему нельзя поныть? Цензуришь, парниша

1.30, Аноним (28), 18:55, 02/11/2022 [ответить] [﹢﹢﹢] [ · · · ]	–5 +/–
В очередной раз Фейсбук делает за день для опенсорса больше, чем весь опеннет вместе взятый за неделю. Ждём местную Си-элиту напрогать алгоритм лучше и быстрее. Время пошло.

2.37, триммер (?), 19:37, 02/11/2022 [^] [^^] [^^^] [ответить]	+1 +/–
Лучше чем aptX все-равно не получится. Лучше бы они над энергоэффективностью носимых устройств поработали. И вцелом над носимыми устройствами. А то ведь кроме атомных часов ничего толком от них и нет...

2.48, Аноним (47), 21:08, 02/11/2022 [^] [^^] [^^^] [ответить]	+1 +/–
А что вы скажете на то, что дискриминация добралась уже до звуковых кодеков?! И куда только конгресс смотрит.

2.61, Марк Ц. (?), 00:38, 03/11/2022 [^] [^^] [^^^] [ответить]	–1 +/–
Хорошо лизнул, мне понравилось

1.39, YetAnotherOnanym (ok), 19:51, 02/11/2022 [ответить] [﹢﹢﹢] [ · · · ]	+1 +/–
> Дискриминатор улучшает качество генерируемых образцов (sample) с учётом модели человеческого слухового восприятия Вот с этого момента, пожалуйста, поподробнее.

2.41, Аноним (32), 19:57, 02/11/2022 [^] [^^] [^^^] [ответить]	+3 +/–
читать надо так: мы выкинул большую часть информации.

3.43, annonn (?), 20:45, 02/11/2022 [^] [^^] [^^^] [ответить]	+1 +/–
... то что "внезапно" происходит во всех алгоритмах сжатия с потерями

1.40, Аноним (40), 19:57, 02/11/2022 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Говорят, опенсорсят, чтобы при делении компании было проще передать код.

2.45, Вы забыли заполнить поле Name (?), 20:53, 02/11/2022 [^] [^^] [^^^] [ответить]	+1 +/–
Вполне может быть. Хотя основная задача - это найм и популяризация компании.

1.44, Аноним (44), 20:52, 02/11/2022 [ответить] [﹢﹢﹢] [ · · · ]	–1 +/–
>> когда при использовании MP3 требуется полоса пропускания в 64 kbps, для передачи с тем же качеством в EnCodec достаточно 6 kbps 1) пруфы?? 2) кто слушает мп3 в 64кбпс?

2.50, _kp (ok), 21:19, 02/11/2022 [^] [^^] [^^^] [ответить]	+2 +/–
Почему Вы таки думаете, что это для музыки? Для какого нибудь голосового чата в мобильном приложении вполне применимо же. И помимо мессенджеров есть еще и игры, где тоже нужен голосовой чат, не забивающий весь мобильный канал связи.

3.51, Аноним (44), 21:37, 02/11/2022 [^] [^^] [^^^] [ответить]	+/–
так как 48 кгц - это двд аудио, а не сд.. а 24 кгц - это вообще дичь какая то.. у кого цап в такое может?

4.69, Судья из Калифорнии с опытом программирования (?), 08:37, 03/11/2022 [^] [^^] [^^^] [ответить]	+2 +/–
У кого цап не может, тот умеет в ресемплинг.

5.80, Аноним (44), 11:13, 03/11/2022 [^] [^^] [^^^] [ответить]	–1 +/–
слово на википедии нашел новое? покажи ка как ды делаешь ресемплинг в 24кгц

6.88, topin89 (ok), 18:41, 06/11/2022 [^] [^^] [^^^] [ответить]	+2 +/–
Берём исходные данные в 48 кГц и оставляем диапазон 0-12 кГц любыми фильтрами любого порядка, по вкусу. Забираем каждое второе измерение -- и всё. На воспроизведении, вставляем каждый первый элемент как нулевой, второй из переданного аудио, снова фильтр на 0-12 кГц -- и на ЦАП 48 кГц. Элементарная же операция, серьёзно.

5.81, Аноним (44), 11:24, 03/11/2022 [^] [^^] [^^^] [ответить]	+/–
после этого комента я окончательнл понял кто такие датасатанисты и на чем они своих моделей дрессируют

3.66, Аноним (66), 06:53, 03/11/2022 [^] [^^] [^^^] [ответить]	+/–
> голосового чата в мобильном приложении Это сейчас так называется?

4.78, _kp (ok), 10:39, 03/11/2022 [^] [^^] [^^^] [ответить]	+/–
>> голосового чата в мобильном приложении > Это сейчас так называется? Не понял вопрос? Неужели не видели, во многих играх, что дети играют на смартфонах, есть голосовой канал, для общения. Качества достойного аудиофилов, в этом случае не требуется, и мп3 64кбит хватило бы за глаза.

1.46, Аноним (47), 21:00, 02/11/2022 [ответить] [﹢﹢﹢] [ · · · ]	–3 +/–
Почему у предпросмотра видео в ютубе закруглённые углы, а когда переходишь на полный просмотр, углы квадратные?!!! Сделайте закруглённые углы при просмотре видео ужо!

1.49, BrainFucker (ok), 21:17, 02/11/2022 [ответить] [﹢﹢﹢] [ · · · ]	+1 +/–
> по сравнению с форматом MP3 Они специально сравнивают с морально устаревшим кодеком? Было бы интересней посмотреть сравнение с opus, например.

2.54, Аноним (53), 21:52, 02/11/2022 [^] [^^] [^^^] [ответить]	+/–
Сравнивать надо с flac.

3.55, BrainFucker (ok), 22:00, 02/11/2022 [^] [^^] [^^^] [ответить]

–1 +/–

> Сравнивать надо с flac.

С винилом. Или хотя бы с SACD.

1.52, Аноним (53), 21:40, 02/11/2022 [ответить] [﹢﹢﹢] [ · · · ]	+2 +/–
>Каузальная модель Видимо слово "причинность" авторам статьи незнакомо. Как и ретропричинность.

2.62, Марк Ц. (?), 00:40, 03/11/2022 [^] [^^] [^^^] [ответить]	+2 +/–
Ага, всё время читаю как "казуальная" Кто выдал этую тупую кальку, запихните её себе обратно

1.58, Аноним (58), 00:32, 03/11/2022 [ответить] [﹢﹢﹢] [ · · · ]	+3 +/–
> (вычисления, ... производятся на одном ядре CPU) Не смогли распараллелить - представили как фичу

1.67, КО (?), 07:11, 03/11/2022 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Эх если б можно было бы в прямой трансляции битрейт выбирать

1.68, ryoken (ok), 07:54, 03/11/2022 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Чёто господа проприетарщики прям по очереди всякие кодеки публикуют. Недавно гугло свой выдавал, теперь эти. Кто следущий, интересно? :)

1.76, Аноним (76), 10:11, 03/11/2022 [ответить] [﹢﹢﹢] [ · · · ]	+1 +/–
Ага, давайте при наличии speex, iLBC, gsm, g723 и g729, которые прекрасно работают не первое десятилетие на "узких" каналах внедрять очередную AI/ML bloatware фитчу, которая будет впустую жрать cpu на конечных устройствах и корежить звук не по предсказуемым алгоритмам, а по тому как человеческий голос воспринимают разработчики из meta (запрещена в рф).

1.82, pavlinux (ok), 14:54, 03/11/2022 [ответить] [﹢﹢﹢] [ · · · ]	+2 +/–
> методы машинного обучения Давно метод перебора и частотные выборки стали "машинным обучением"?

2.83, Аноним (32), 19:32, 03/11/2022 [^] [^^] [^^^] [ответить]	+1 +/–
> Давно Примерно как только начали в вузах изучать Искусственного Идиота.

2.85, Аноним (85), 23:05, 04/11/2022 [^] [^^] [^^^] [ответить]	+1 +/–
Не перебора, а градиентного спуска. Понимать надо.

3.86, Аноним (32), 23:57, 04/11/2022 [^] [^^] [^^^] [ответить]	+2 +/–
Градиентный спуск - одна из самых убогих аналитических схем. Есть даже тривиальные поверхности, на которых градиенты по осям - нули, но стоит повернуть СК на 45 градусов, и сразу появляется этот градиент (речь про седло, например). Такая системокоординаточувствительность в реальных задачах делает много подлянок.

1.92, аудиокодек xHEAAC (?), 04:13, 29/09/2024 [ответить] [﹢﹢﹢] [ · · · ]	+/–
сравнить бы с xHE-AAC по звучанию.

игнорирование участников | лог модерирования

Добавить комментарий

Текст: