The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

Facebook опубликовал звуковой кодек EnCodec, использующий машинное обучение

02.11.2022 17:17

Компания Meta/Facebook (запрещена в РФ) представила новый звуковой кодек EnCodec, использующий методы машинного обучения для повышения степени сжатия без потери качества. Кодек может применять как для потоковой передачи звука в режиме реального времени, так и для кодирования для последующего сохранения в файлах. Эталонная реализация EnCodec написана на языке Python с использованием фреймворка PyTorch и распространяется под лицензией CC BY-NC 4.0 (Creative Commons Attribution-NonCommercial), допускающей использование только в некоммерческих целях.

Для загрузки предложены две готовые модели:

  • Каузальная модель, использующая частоту дискретизации 24 kHz, поддерживающая только монофонический звук и натренированная на разноплановых звуковых данных (подходит для кодирования речи). Модель может использоваться для упаковки звуковых данных для передачи с битрейтами 1.5, 3, 6, 12 и 24 kbps.
  • Некаузальная модель, использующая частоту дискретизации 48 kHz, поддерживающая стереозвук и натренированная только на музыке. Моделью поддерживаются битрейты 3, 6, 12 и 24 kbps.

Для каждой модели подготовлена дополнительная языковая модель, позволяющая добиться значительного увеличения степени сжатия (до 40%) без потери качества. В отличие от ранее развиваемых проектов по применению методов машинного обучения для сжатия звука, EnCodec может применяться не только для упаковки речи, но и для сжатия музыки с частотой дискретизации 48 kHz, соответствующей уровню звуковых CD. По заявлению разработчиков нового кодека при передаче с битрейтом 64 kbps по сравнению с форматом MP3 им удалось примерно в десять раз увеличить степень сжатия звука с сохранением того же уровня качества (например, когда при использовании MP3 требуется полоса пропускания в 64 kbps, для передачи с тем же качеством в EnCodec достаточно 6 kbps).

Архитектура кодека построена на базе нейронной сети с архитектурой "трансформер" и основывается на четырёх звеньях: кодировщика, квантователя, декодировщика и дискриминатора. Кодировщик извлекает параметры голосовых данных и преобразует их упакованный поток с более низкой частотой кадров. Квантователь (RVQ, Residual Vector Quantizer) преобразует выдаваемый кодировщиком поток в наборы пакетов, сжимая информацию в привязке к выбранному битрейту. На выходе квантователя образуется сжатое представление данных, пригодное для передачи по сети или сохранения на диск.

Декодировщик раскодирует сжатое представление данных и восстанавливает исходную звуковую волну. Дискриминатор улучшает качество генерируемых образцов (sample) с учётом модели человеческого слухового восприятия. Независимо от уровня качества и битрейта применяемые для кодирования и декодирования модели отличаются достаточно скромными требованиями к ресурсам (вычисления, необходимые для работы в режиме реального времени, производятся на одном ядре CPU).



  1. Главная ссылка к новости (https://ai.facebook.com/blog/a...)
  2. OpenNews: Google опубликовал открытый аудиокодек Lyra V2
  3. OpenNews: Опубликован свободный звуковой кодек FLAC 1.4
  4. OpenNews: Открыт код Spleeter, системы для разделения музыки и голоса
  5. OpenNews: Обновление MediaPipe, фреймворка для обработки видео и звука с использованием машинного обучения
  6. OpenNews: Google опубликовал данные и модель машинного обучения для разделения звуков
Лицензия: CC BY 3.0
Наводку на новость прислал Artem S. Tashkinov
Короткая ссылка: https://opennet.ru/58029-encodec
Ключевые слова: encodec, facebook, audio, codec
При перепечатке указание ссылки на opennet.ru обязательно


Обсуждение (61) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.7, Аноним (7), 17:40, 02/11/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • –4 +/
    Ни один человек, если он хотя бы имеет IQ как у хлебушка, не станет внедрять в качестве кодека ту *****, которую сможет распутать только неизвестно как обученный и устроенный внутри ИИ

    Традиционные кодеки практичны, надёжны и работают по очевидному алгоритму на всех этапах который легко воспроизвести с нуля

     
     
  • 2.15, topin89 (ok), 18:06, 02/11/2022 [^] [^^] [^^^] [ответить]  
  • +13 +/
    Я понимаю ощущения, но думаю дело в хайпе нейронок vs классические методы. Вот возьмём JPG обычный. Там внутре есть матрица квантования (умно звучит, но там просто целочисленно делят поэлементно), и подобрали её те же нейронки, только биологические. Хотя могли и полным перебором, и машинным обучением и как угодно ещё.

    Даже банальная конверсия цветного изображения в чб основана на непонятных магических коэффициентах, собраных когда-то давно буквально на глазок.

    Лично помню случай, когда портативный Blender был сначала сжать через ZIP, потом 7Z -- и это сработало вопреки всему, и не предскажешь такое, хоть и нет там нейронок.

    В нейронках как раз архитектура простая, но коэффициентов не 5-100, а >9000. И то, что подбирали их через машинное обучение, а не наугад -- детали.

    Сами по себе натренированные нейронки работают предсказуемо, и если 10 раз подать на вход один и тот же файл, 10 раз на выходе будет один и тот же результат. Только подбор коэффициентов случаен.

     
     
  • 3.32, Аноним (32), 19:01, 02/11/2022 [^] [^^] [^^^] [ответить]  
  • +1 +/
    У тебя всё в кашу перемешалось. Что касается "цветного изображения в чб", дак это только для тебя магия, а для остальных - коэффициенты вытекают из чувствительности глаза к разным цветам.
     
     
  • 4.64, kai3341 (ok), 02:38, 03/11/2022 [^] [^^] [^^^] [ответить]  
  • +9 +/
    > коэффициенты вытекают из чувствительности глаза к разным цветам.

    Очевидно, этот глаз хранится в Бюро Мер и Весов. Хочешь сказать, все люди воспринимают цвета одинаково?

     
     
  • 5.72, Аноним (72), 09:21, 03/11/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Усредняют. Правда, некоторая дельта есть - потому и модели разные.
     
  • 2.28, Аноним (28), 18:51, 02/11/2022 [^] [^^] [^^^] [ответить]  
  • +3 +/
    > работают по очевидному алгоритму на всех этапах

    Экспертиза уровня опеннет. Открой исходники любого кодека и почитай. Ротом расскажешь об «очевидных алгоритмах».

     
     
  • 3.84, муу (?), 12:13, 04/11/2022 [^] [^^] [^^^] [ответить]  
  • +/
    > Экспертиза уровня опеннет

    ну если для тебя они не очевидны вали учить математику с физикой, эксперт уровня "ответы mail.ru" ты наш

     
     
  • 4.89, topin89 (ok), 22:31, 06/11/2022 [^] [^^] [^^^] [ответить]  
  • +/
    > ну если для тебя они не очевидны вали учить математику с физикой,
    > эксперт уровня "ответы mail.ru" ты наш

    То-то и оно, математика нейронок проще, чем математика условных AV1 или OGG.

     
  • 2.53, Аноним (53), 21:51, 02/11/2022 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Ты ошибаешьшься Если кодек - lossless, то ничего не мешает при улучшении моделе... большой текст свёрнут, показать
     
  • 2.70, Diozan (ok), 08:45, 03/11/2022 [^] [^^] [^^^] [ответить]  
  • +1 +/
    >>>Традиционные кодеки практичны, надёжны и работают по очевидному алгоритму на всех этапах который легко воспроизвести с нуля

    Вот только режут звук со сложным спектром, ибо не обучены вычленять звук бас-гитары или вокала или скрипки из общего потока. И как результат, например, тарелочки не звенят, а цыкают, а из состава симфонического оркестра просто тупо выпадают некоторые инструменты.

     
     
  • 3.77, Аноним (77), 10:16, 03/11/2022 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Очередная модно-молодёжная нейронка, досочиняющая нёх на ходу, проблему не решит. Так что ходи лучше в филармонию и слушай вживую.
     
     
  • 4.90, topin89 (ok), 22:36, 06/11/2022 [^] [^^] [^^^] [ответить]  
  • +/
    > Очередная модно-молодёжная нейронка, досочиняющая нёх на ходу, проблему не решит. Так что
    > ходи лучше в филармонию и слушай вживую.

    Давно изучал как работают самые мощные сжимающие алгоритмы вроде PAQ. Там, внезапно, тоже нейронка, c 2005 года. Такие алгоритмы сжатия сначала получают предсказанный (сочинённый) результат, находят разницу между предсказанным и реальным, и её уже сжимают.

     

  • 1.8, pashev.ru (?), 17:40, 02/11/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    А линейная регрессия — это ведь тоже машинное обучение?
     
     
  • 2.38, Онанистмус (?), 19:45, 02/11/2022 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Да. Это первое чему учат.
     
  • 2.57, _dz (?), 23:14, 02/11/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Зависит от того, как считается. Если подбором параметров - да, если решается в явном виде - нет.
     
     
  • 3.65, pashev.ru (?), 03:01, 03/11/2022 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Ты тут нам маркетинг не хулюгань!
     

  • 1.10, pashev.ru (?), 17:44, 02/11/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Опять что-то типа речь—текст—речь?
     
     
  • 2.42, Аноним (32), 19:59, 02/11/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Словарь Эллочки-людоедки составлял 30 слов, но ими она могла выразить практически любую свою мысль.
     
     
  • 3.47, Аноним (47), 21:02, 02/11/2022 [^] [^^] [^^^] [ответить]  
  • +3 +/
    хватит и двух:
    хохо, парниша!
     
     
  • 4.73, гоквч (?), 09:39, 03/11/2022 [^] [^^] [^^^] [ответить]  
  • +3 +/
    я есть Грут
     
     
  • 5.91, Аноним (47), 01:29, 07/11/2022 [^] [^^] [^^^] [ответить]  
  • +/
    вижу 3
     
  • 2.56, X (?), 23:11, 02/11/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Типа отправил музыку, получил акопеллу на выходе?
     
     
  • 3.63, Аноним (32), 00:47, 03/11/2022 [^] [^^] [^^^] [ответить]  
  • +/
    с нейросеткой возможно всё.
     
  • 3.79, n00by (ok), 10:50, 03/11/2022 [^] [^^] [^^^] [ответить]  
  • +3 +/
    Типа смотрим видосик, а там поют:

    Денег мало, длинный шмель,
    Ты в кибитку не ходи!

     

  • 1.19, annonn (?), 18:14, 02/11/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    (Не)удивительно читать подобное нытье.
    Фейсбук сделал для себя какой-то алгоритм, который подходит под их задачи и ограничения.
    Они решили поделиться результатом со всем миром.
    Если тебе подходит - пользуйся на здоровье, если не подходит - не пользуйся.

    Вроде весь опенсорс так работает.

     
     
  • 2.23, Вы забыли заполнить поле Name (?), 18:34, 02/11/2022 [^] [^^] [^^^] [ответить]  
  • +4 +/
    Это не нытье, а критика. Учитесь различать. Или все должны восхвалять проекты fb?
     
     
  • 3.26, annonn (?), 18:44, 02/11/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Критику увидел только в паре сообщений - там где есть обоснования и примеры "почему это плохо"
    А остальные просто ноют.
     
     
  • 4.59, Аноним (59), 00:36, 03/11/2022 [^] [^^] [^^^] [ответить]  
  • +3 +/
    И почему нельзя поныть?
    Цензуришь, парниша
     

  • 1.30, Аноним (28), 18:55, 02/11/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • –5 +/
    В очередной раз Фейсбук делает за день для опенсорса больше, чем весь опеннет вместе взятый за неделю. Ждём местную Си-элиту напрогать алгоритм лучше и быстрее. Время пошло.
     
     
  • 2.37, триммер (?), 19:37, 02/11/2022 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Лучше чем aptX все-равно не получится.
    Лучше бы они над энергоэффективностью носимых устройств поработали.
    И вцелом над носимыми устройствами. А то ведь кроме атомных часов ничего толком от них и нет...
     
  • 2.48, Аноним (47), 21:08, 02/11/2022 [^] [^^] [^^^] [ответить]  
  • +1 +/
    А что вы скажете на то, что дискриминация добралась уже до звуковых кодеков?! И куда только конгресс смотрит.
     
  • 2.61, Марк Ц. (?), 00:38, 03/11/2022 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Хорошо лизнул, мне понравилось
     

  • 1.39, YetAnotherOnanym (ok), 19:51, 02/11/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    > Дискриминатор улучшает качество генерируемых образцов (sample) с учётом модели человеческого слухового восприятия

    Вот с этого момента, пожалуйста, поподробнее.

     
     
  • 2.41, Аноним (32), 19:57, 02/11/2022 [^] [^^] [^^^] [ответить]  
  • +3 +/
    читать надо так: мы выкинул большую часть информации.
     
     
  • 3.43, annonn (?), 20:45, 02/11/2022 [^] [^^] [^^^] [ответить]  
  • +1 +/
    ... то что "внезапно" происходит во всех алгоритмах сжатия с потерями
     

  • 1.40, Аноним (40), 19:57, 02/11/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Говорят, опенсорсят, чтобы при делении компании было проще передать код.
     
     
  • 2.45, Вы забыли заполнить поле Name (?), 20:53, 02/11/2022 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Вполне может быть. Хотя основная задача - это найм и популяризация компании.
     

  • 1.44, Аноним (44), 20:52, 02/11/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    >> когда при использовании MP3 требуется полоса пропускания в 64 kbps, для передачи с тем же качеством в EnCodec достаточно 6 kbps

    1) пруфы??
    2) кто слушает мп3 в 64кбпс?

     
     
  • 2.50, _kp (ok), 21:19, 02/11/2022 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Почему Вы таки думаете, что это для музыки? Для какого нибудь голосового чата в мобильном приложении вполне применимо же. И помимо мессенджеров есть еще и игры, где тоже нужен голосовой чат, не забивающий весь мобильный канал связи.
     
     
  • 3.51, Аноним (44), 21:37, 02/11/2022 [^] [^^] [^^^] [ответить]  
  • +/
    так как 48 кгц - это двд аудио, а не сд.. а 24 кгц - это вообще дичь какая то.. у кого цап в такое может?
     
     
  • 4.69, Судья из Калифорнии с опытом программирования (?), 08:37, 03/11/2022 [^] [^^] [^^^] [ответить]  
  • +2 +/
    У кого цап не может, тот умеет в ресемплинг.
     
     
  • 5.80, Аноним (44), 11:13, 03/11/2022 [^] [^^] [^^^] [ответить]  
  • –1 +/
    слово на википедии нашел новое? покажи ка как ды делаешь ресемплинг в 24кгц
     
     
  • 6.88, topin89 (ok), 18:41, 06/11/2022 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Берём исходные данные в 48 кГц и оставляем диапазон 0-12 кГц любыми фильтрами любого порядка, по вкусу. Забираем каждое второе измерение -- и всё.
    На воспроизведении, вставляем каждый первый элемент как нулевой, второй из переданного аудио, снова фильтр на 0-12 кГц -- и на ЦАП 48 кГц. Элементарная же операция, серьёзно.
     
  • 5.81, Аноним (44), 11:24, 03/11/2022 [^] [^^] [^^^] [ответить]  
  • +/
    после этого комента я окончательнл понял кто такие датасатанисты и на чем они своих моделей дрессируют
     
  • 3.66, Аноним (66), 06:53, 03/11/2022 [^] [^^] [^^^] [ответить]  
  • +/
    > голосового чата в мобильном приложении

    Это сейчас так называется?

     
     
  • 4.78, _kp (ok), 10:39, 03/11/2022 [^] [^^] [^^^] [ответить]  
  • +/
    >> голосового чата в мобильном приложении
    > Это сейчас так называется?

    Не понял вопрос?
    Неужели не видели, во многих играх, что дети играют на смартфонах, есть голосовой канал, для общения.
    Качества достойного аудиофилов, в этом случае не требуется, и мп3 64кбит хватило бы за глаза.

     

  • 1.46, Аноним (47), 21:00, 02/11/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • –3 +/
    Почему у предпросмотра видео в ютубе закруглённые углы, а когда переходишь на полный просмотр, углы квадратные?!!! Сделайте закруглённые углы при просмотре видео ужо!
     
  • 1.49, BrainFucker (ok), 21:17, 02/11/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    > по сравнению с форматом MP3

    Они специально сравнивают с морально устаревшим кодеком? Было бы интересней посмотреть сравнение с opus, например.

     
     
  • 2.54, Аноним (53), 21:52, 02/11/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Сравнивать надо с flac.
     
     
  • 3.55, BrainFucker (ok), 22:00, 02/11/2022 [^] [^^] [^^^] [ответить]  
  • –1 +/
    > Сравнивать надо с flac.

    С винилом. Или хотя бы с SACD.

     

  • 1.52, Аноним (53), 21:40, 02/11/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +2 +/
    >Каузальная модель

    Видимо слово "причинность" авторам статьи незнакомо. Как и ретропричинность.

     
     
  • 2.62, Марк Ц. (?), 00:40, 03/11/2022 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Ага, всё время читаю как "казуальная"
    Кто выдал этую тупую кальку, запихните её себе обратно
     

  • 1.58, Аноним (58), 00:32, 03/11/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +3 +/
    > (вычисления, ... производятся на одном ядре CPU)

    Не смогли распараллелить - представили как фичу

     
  • 1.67, КО (?), 07:11, 03/11/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Эх если б можно было бы в прямой трансляции битрейт выбирать
     
  • 1.68, ryoken (ok), 07:54, 03/11/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Чёто господа проприетарщики прям по очереди всякие кодеки публикуют. Недавно гугло свой выдавал, теперь эти. Кто следущий, интересно? :)
     
  • 1.76, Аноним (76), 10:11, 03/11/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    Ага, давайте при наличии speex, iLBC, gsm, g723 и g729, которые прекрасно работают не первое десятилетие на "узких" каналах внедрять очередную AI/ML bloatware фитчу, которая будет впустую жрать cpu на конечных устройствах и корежить звук не по предсказуемым алгоритмам, а по тому как человеческий голос воспринимают разработчики из meta (запрещена в рф).
     
  • 1.82, pavlinux (ok), 14:54, 03/11/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +2 +/
    > методы машинного обучения

    Давно метод перебора и частотные выборки стали "машинным обучением"?

     
     
  • 2.83, Аноним (32), 19:32, 03/11/2022 [^] [^^] [^^^] [ответить]  
  • +1 +/
    > Давно

    Примерно как только начали в вузах изучать Искусственного Идиота.

     
  • 2.85, Аноним (85), 23:05, 04/11/2022 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Не перебора, а градиентного спуска. Понимать надо.
     
     
  • 3.86, Аноним (32), 23:57, 04/11/2022 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Градиентный спуск - одна из самых убогих аналитических схем. Есть даже тривиальные поверхности, на которых градиенты по осям - нули, но стоит повернуть СК на 45 градусов, и сразу появляется этот градиент (речь про седло, например). Такая системокоординаточувствительность в реальных задачах делает много подлянок.
     

  • 1.92, аудиокодек xHEAAC (?), 04:13, 29/09/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    сравнить бы с xHE-AAC по звучанию.
     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Партнёры:
    PostgresPro
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2024 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру