The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

Система машинного обучения Stable Diffusion адаптирована для синтеза музыки

16.12.2022 11:00

Проектом Riffusion развивается вариант системы машинного обучения Stable Diffusion, адаптированный для генерации музыки вместо изображений. Музыка может синтезироваться на основе предложенного шаблона или текстового описания на естественном языке. Компоненты для синтеза музыки написаны на языке Python с использованием фреймворка PyTorch и доступны под лицензией MIT. Обвязка с интерфейсом реализована на языке TypeScript и также распространяется под лицензией MIT. Натренированные модели открыты под пермиссивной лицензией Creative ML OpenRAIL-M, допускающей использование в коммерческих целях.

Проект интересен тем, что продолжает использовать для генерации музыки модели "из текста в изображение" и "из изображения в изображение", но в качестве изображений манипулирует спектрограммами. Иными словами, классический Stable Diffusion натренирован не на фотографиях и картинках, а на изображениях спектрограмм, отражающих изменение частоты и амплитуды звуковой волны со временем. Соответственно на выходе тоже формируется спектрограмма, которая затем преобразуется в звуковое представление.

Метод также может использоваться для изменения имеющихся звуковых композиций и синтеза музыки по образцу, по аналогии с модификацией изображений в Stable Diffusion. Например, при генерации могут задаваться образцы спектрограмм с эталонным стилем, комбинироваться разные стили, выполняться плавный переход от одного стиля к другому или вноситься изменения в существующий звук для решения таких задач, как увеличение громкости отдельных инструментов, изменение ритма и замена инструментов. Образцы также используются для генерации длительно играющих композиций, компонуемых из серии близких друг к другу отрывков, немного меняющихся во времени. Отдельно генерируемые отрывки объединяются в непрерывный поток при помощи интерполяции внутренних параметров модели.

Для создания спектрограммы из звука используется оконное преобразование Фурье. При воссоздании звука из спектрограммы возникает проблема с определением фазы (на спектрограмме присутствует только частота и амплитуда), для реконструкции которой задействован алгоритм аппроксимации Гриффина-Лима.



  1. Главная ссылка к новости (https://news.ycombinator.com/i...)
  2. OpenNews: Представлена система синтеза изображений Stable Diffusion 2.0
  3. OpenNews: Системы машинного обучения для синтеза изображений и подавления шумов на ночных фото
  4. OpenNews: Открыт код Spleeter, системы для разделения музыки и голоса
  5. OpenNews: Обновление MediaPipe, фреймворка для обработки видео и звука с использованием машинного обучения
  6. OpenNews: Google опубликовал данные и модель машинного обучения для разделения звуков
Лицензия: CC BY 3.0
Короткая ссылка: https://opennet.ru/58336-riffusion
Ключевые слова: riffusion, ai, stable, diffusion
При перепечатке указание ссылки на opennet.ru обязательно


Обсуждение (56) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.1, Аноним (1), 12:05, 16/12/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +2 +/
    Единственное нормальное применение этого стейбл диффьюжена.
     
     
  • 2.19, Аноним (19), 13:25, 16/12/2022 [^] [^^] [^^^] [ответить]  
  • +6 +/
    Вы, батенька, пользоваться просто не умеете
     
     
  • 3.21, Аноним (1), 13:55, 16/12/2022 [^] [^^] [^^^] [ответить]  
  • –3 +/
    Чем дебильными наркоманскими картинками? И хорошо что не умею, просмотр ковра это развлечения я оставлю для тебя.
     
     
  • 4.25, Аноним (25), 14:07, 16/12/2022 [^] [^^] [^^^] [ответить]  
  • –2 +/
    какие запросы такие и картинки ... завязывайте с наркотиками
     
     
  • 5.44, Аноним (44), 22:53, 17/12/2022 [^] [^^] [^^^] [ответить]  
  • +/
    завязывай с порнухой
     

  • 1.2, Жироватт (ok), 12:09, 16/12/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • –9 +/
    А собачку на спектрограмме не дорисует? Фрактальную собачку из фрактальных собачек.

    А вообще да, многовато в последнее время громких FizzBuzz-заголовков про очередную нейросеть Hurr, натренированную на Durr, написанную omg, this is PYTHON!

    Конкретно эта сеть смогЁт или не смогЁт убрать фоновый отсчётный бдыщь-бдыщь из обоих семплов без потери качества остальных инструментов? Или окна берутся как промежутки между этим задолбавшим в каждом первом треке отсчетами?

     
     
  • 2.8, Аноним (1), 12:26, 16/12/2022 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Странные у тебя фантазии про собачек. Но принцип работы в твоё случае это убрать звук с бдыщами и выдумать на основе обучение ту часть, которую ты хочешь заменить. С качеством может все и будет норм, но это уже будет не тот кусок, который был до этого, а свежевыдуманные на основе того что было рядом.
     
     
  • 3.13, Жироватт (ok), 13:01, 16/12/2022 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Не странные, просто раньше были распространены картинки, где нейросеть рисовала фрактальных собачек
    https://www.nanonewsnet.ru/files/users/u3/2016/04/fef1b388630c2b3fd9336a42d25a
    вместо того, что надо. Мне просто интересно, таки будет фрактальная собачка на спектрограмме, или уже нет.

    > Но принцип работы в твоё случае это убрать звук с бдыщами и выдумать на основе обучение ту часть, которую ты хочешь заменить.
    > без потери качества остальных инструментов?

    Или выдумать, или экстраполировать звучание остальных каналов в сведенной, запеченной для продакшена мелодии. Бдыщи же небольшие по длительности. Вот мне интересно, сможет оно или не сможет сделать это?
    Ну или если выражаться яснее - сможет ли она достроить выпавшие куски так, чтобы а) не было видимых переходов "данные - генерированное - данные" и при этом для инструментов сохранялась форма и пропорции, которые можно получить на основе диапазона инструмента из "чистых" кусков.

    Просто иначе это не заслуживает внимания.

     
  • 2.9, Аноним (9), 12:30, 16/12/2022 [^] [^^] [^^^] [ответить]  
  • +/
    >без потери качества

    А если подумать? Нейросети дорисовывают, может только попробовать угадать. Результат известен.

     
     
  • 3.15, Жироватт (ok), 13:01, 16/12/2022 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Угадать или вычленить-экстраполировать-достроить без потери экстремумов.
     

  • 1.3, Аноним (3), 12:10, 16/12/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Результаты похожи на творчество The Caretaker
     
  • 1.4, Аноним (4), 12:12, 16/12/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +4 +/
    Битмейкеры уже напряглись?
     
     
  • 2.5, Жироватт (ok), 12:14, 16/12/2022 [^] [^^] [^^^] [ответить]  
  • +4 +/
    Зачем? Обезьянка с пираченным фрутилупс таки дешевле сожженого на запуск нейросетки электричества.
     
  • 2.7, Аноним (7), 12:22, 16/12/2022 [^] [^^] [^^^] [ответить]  
  • +6 +/
    Сможет ли робот написать симфонию? Смитт напрягся.
     
     
  • 3.38, лютый ж.... (?), 10:51, 17/12/2022 [^] [^^] [^^^] [ответить]  
  • +/
    >Сможет ли робот написать симфонию?

    даже до качественного митола (ну там) / пинкфлойдов далеко. в музоне вся шифка - новое придумать. а картинки с сицками нейросети, как раз, уже неплохо повторяют. только это не творчество

     
  • 2.24, Анонус (?), 14:03, 16/12/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Да брось ты.
    Щас какой нить вендор начнет играться и впаривать нагенеренные сэмпл-паки битмарям, битмари будут по-прежнему впаривать этот нагенеренный непосильным творческим трудом кал рэпперам, последние будут есть и обляпываться
     

  • 1.6, Аноним (6), 12:21, 16/12/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    > используется оконное преобразование Фурье

    - вершина математической науки. Дожили. Хотя чему удивляться? https://www.cnews.ru/news/top/2022-12-15_cnewsvtb_i_skolkovo_nagradyat

     
     
  • 2.12, Аноним (12), 12:58, 16/12/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Ты участвуешь?
     
     
  • 3.42, Аноним (42), 18:50, 17/12/2022 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Нет, его послали. Иначе бы не бургутил.
     

  • 1.10, Аноним (10), 12:32, 16/12/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Гачимучи будет синтезировать.
     
     
  • 2.18, Жироватт (ok), 13:08, 16/12/2022 [^] [^^] [^^^] [ответить]  
  • +8 +/
    У них в инструкции написано, что этого надо будет купить PREMIUM-датасет за THREE HUNDRED BUCKS, докупить еще один терабайтник для FU*EN SLAVE-нейросети, а затем позвать DUNGEON MASTER для инсталляции.
    Попробуй, отпишись, как пойдет.
     
  • 2.26, Аноним (26), 15:05, 16/12/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Without further interruption let's celebrate and make some datasets!
     
  • 2.57, Full Master (?), 08:37, 22/12/2022 [^] [^^] [^^^] [ответить]  
  • +/
    А картинки такие оно уже умеет генерировать?
     

  • 1.11, Аноним (11), 12:48, 16/12/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    музыка дак как будто из порно
     
     
  • 2.16, Аноним (16), 13:02, 16/12/2022 [^] [^^] [^^^] [ответить]  
  • +/
    А как она звучит? Напой пожалуйста, друг интересуется.
     
     
  • 3.33, BrainFucker (ok), 21:25, 16/12/2022 [^] [^^] [^^^] [ответить]  
  • +/
    https://cloudflare-ipfs.com/ipfs/QmZpzH7ifE9NdRgRoh7Lz218MQEkNJxhoBtW5NT12Deie
     
  • 3.56, Аноним (9), 20:43, 18/12/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Как специалист в этом вопросе имею сказать, что вот эта песня и песни вроде неё часто используются https://www.youtube.com/watch?v=TP8O2mmDLzI так что нет, только в дешёвом и без души будет такой треш как в ОП, откат за использование трека не такой уж и большой.
     
  • 2.17, Жироватт (ok), 13:03, 16/12/2022 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Нейросетюшка, ты ювелир!
     
  • 2.32, анонна (?), 20:54, 16/12/2022 [^] [^^] [^^^] [ответить]  
  • +/
    это она и есть)) а вообще создать музыку на компе можно, но это будет звук без души. музыка написанная человеком и отличается тем, что не строгие промежутки звучания и смены нот. это как электромузыка тож самое. там мало таланта и мастерства самого человека. музыка должна пройти через руки мастера играющего на инструменте чтобы быть музыкой.
     
     
  • 3.43, Аноним (42), 18:52, 17/12/2022 [^] [^^] [^^^] [ответить]  
  • +/
    >не строгие промежутки звучания

    Ты бы хоть про темперацию почитал, а? А то и правда нейросетке сольёшь.

     
     
  • 4.47, анонна (?), 23:17, 17/12/2022 [^] [^^] [^^^] [ответить]  
  • +/
    я слушал то что сочинила прога и то что сыграл мастер.)) поверь разница колосальная.
     
     
  • 5.51, Аноним (51), 15:40, 18/12/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Так это от того, что ты знал заранее, где мастер, где прога, и настроил так себя. Если бы ты не знал, где кто играет, ты бы может и не отличил, от мастера может и отличил бы (да и то, я вот за себя не поручусь), а от обычного среднего неплохого музыканта?
     
     
  • 6.53, анонна (?), 16:36, 18/12/2022 [^] [^^] [^^^] [ответить]  
  • +/
    > Так это от того, что ты знал заранее, где мастер, где прога,
    > и настроил так себя. Если бы ты не знал, где кто
    > играет, ты бы может и не отличил, от мастера может и
    > отличил бы (да и то, я вот за себя не поручусь),
    > а от обычного среднего неплохого музыканта?

    сам играю на электрогитаре. поверь разница между машиной и музыкантом в том как он делает интонации и как он играет иногда специально не соблюдая ритм и длину нот. в этом отличие человека от машины. он не способен долго выдерживать правильный темп и сила удара по струнам разная создавая интонацию. не музыкант и правда не всегда услышит. для обычного обывателя и правда сложно может быть отличить. но интонацию и общий характер звучания думаю сможет.

     
  • 3.49, Аноним (9), 14:23, 18/12/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Дааа… Уже 50 лет как буквально вся музыка "создана на компе" -- большое число семплов максимально искусственные. Реальная музыка и живое исполнение есть практически только в саундтреках к играм и фильмам.
     
     
  • 4.50, анонна (?), 14:56, 18/12/2022 [^] [^^] [^^^] [ответить]  
  • +/
    > Дааа… Уже 50 лет как буквально вся музыка "создана на компе" --
    > большое число семплов максимально искусственные. Реальная музыка и живое исполнение есть
    > практически только в саундтреках к играм и фильмам.

    значит ты слушаешь только электро. рок послушай или классику там без живой музыки никак. а попса она и есть попса. уродство то еще. там нет текстов песен достойных , а музыка... можно ли её еще музыкой назвать. бит для тугослышащих.))

     
     
  • 5.54, Аноним (9), 17:54, 18/12/2022 [^] [^^] [^^^] [ответить]  
  • +/
    О нет, тексты бывают удивительно глубокие, люди просто не задумываются о смысле,... большой текст свёрнут, показать
     
     
  • 6.55, анонна (?), 18:04, 18/12/2022 [^] [^^] [^^^] [ответить]  
  • +/
    >[оверквотинг удален]
    > мелодичность и техничность исполнения параметры вполне объективные. Лично я вообще только
    > группы вроде Merzbow^W Heilung слушаю, но всё же у большинства популярных
    > исполнителей живые концертные исполнения такое себе, сколько ни смотрел. Только если
    > очень нравится исполнитель, у меня есть коллекция концертных блюреев. Классику же
    > сегодня разве что в этих самых играх и услышишь. Ещё можно
    > в аниме натуральные инструментальные исполнения найти. А вот рок сам по
    > себе попса в худшем смысле, только устаревшая, к тому же в
    > нём обычно есть и семплы и постобработка. Я конечно не осуждаю
    > ценителей живого натурального исполнения а ля Anal Cunt, но это немного
    > не моё.

    я любитель живого исполнения музыки и рок с текстами редко слушаю. скорее чистые композиции музыки без слов. так в роке так уж повелось исполнители песен не певцы. разве что кипелов во времена арии. ну и некоторые группы европейские и американские, где певцы - женщины. сам предпочитаю джемовать на гитаре с другими гитаристами через полностью аналоговое оборудование. гитара, лампа там и педальки. никакого компа. разве что минуса иногда с него.


     
  • 2.37, v_shestom (?), 03:04, 17/12/2022 [^] [^^] [^^^] [ответить]  
  • +/
    В принципе, звучит не хуже, чем минимум 1/3 фонотеки Spotify. Разве что битрейт оставляет желать лучшего.
     

  • 1.14, Анонус (?), 13:01, 16/12/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    Интересно, а если Стабильную Диффузию тренировать не на спектрограммах, а на нотных листах, получится что-то более слушабельное?
     
     
  • 2.20, devl547 (ok), 13:27, 16/12/2022 [^] [^^] [^^^] [ответить]  
  • +3 +/
    Для начала можно попробовать натренировать на басовых партиях. Правда может нажраться в итоге.
     
     
  • 3.22, Анонус (?), 13:59, 16/12/2022 [^] [^^] [^^^] [ответить]  
  • +/
    нельзя.
    басисты всегда отмороженные, возьмите любую (совершенно) группу - басист там будет самым обмороком.
    нельзя подпускать к басу нейросеть, нельзя, одумайтесь, остановитесь
     
     
  • 4.23, Анонус (?), 14:03, 16/12/2022 [^] [^^] [^^^] [ответить]  
  • +2 +/
    > нельзя.
    > басисты всегда отмороженные, возьмите любую (совершенно) группу - басист там будет самым
    > обмороком.
    > нельзя подпускать к басу нейросеть, нельзя, одумайтесь, остановитесь

    Тогда может виолончель? Она почти как бас, но не бухает.

     
  • 4.39, лютый ж.... (?), 10:53, 17/12/2022 [^] [^^] [^^^] [ответить]  
  • +/
    >возьмите любую (совершенно) группу - басист там будет самым обмороком

    genesis, pink floyd )

     
     
  • 5.59, Assador (ok), 10:18, 25/12/2022 [^] [^^] [^^^] [ответить]  
  • +/
    О, да! Уотерс — образец адекватности! ))
     
  • 4.40, Sw00p aka Jerom (?), 13:58, 17/12/2022 [^] [^^] [^^^] [ответить]  
  • +/
    >нельзя.

    тут надо добавить - OMG, SLAP :) Davie504

     
  • 2.28, подрывник (?), 18:18, 16/12/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Не получится. Оно не понимает пифагоровы расстояния (деление струны на 2, 3, 4, 5, 6, и 9) и прочитать ноты не сможет.
     

  • 1.29, warlock66613 (ok), 18:41, 16/12/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +2 +/
    Результат, выдаваемый этой системой, напомнил анекдот, где у человека получалось печатать 1000 слов в в минуту. Даже cat /proc/kernel > /dev/dsp выдавал звук поприятнее.
     
     
  • 2.30, фывафыва (?), 19:03, 16/12/2022 [^] [^^] [^^^] [ответить]  
  • +/
    sudo cat /proc/kernel > /dev/dsp
    zsh: permission denied: /dev/dsp
    Как вы это делаете? Тоже хочу.
     
     
  • 3.31, Аноним (9), 19:49, 16/12/2022 [^] [^^] [^^^] [ответить]  
  • –1 +/
    эмуляцию oss загрузи в ядре (через modprobe)
     

  • 1.34, Агл (?), 23:26, 16/12/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    следующими в очереди на замещение -- математики
     
  • 1.35, fuggy (ok), 23:51, 16/12/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Зачем такая прослойка. Неужели нельзя было натренировать нейросеть на самых волнах, а не картинках спектрограмм? Ещё и пришлось приплетать алгоритм нахождения фазы.
    Напоминает шутку, про починить двигатель автомобиля через выхлопную трубу.
     
     
  • 2.52, Аноним (51), 15:43, 18/12/2022 [^] [^^] [^^^] [ответить]  
  • +/
    > Неужели нельзя было натренировать нейросеть на самых волнах, а не картинках спектрограмм

    Тогда это была бы другая нейросеть, не стейбл диффьюжн. Стейбл диффьюжн - это именно сетка, базово работающая с изображениями. Вот ребята попытались музыку перекодировать изображением

     

  • 1.36, Геймер (?), 00:21, 17/12/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Сочинение популярной массовой трёхаккордовой попмузыки не требует вообще никакого интеллекта. Какие-то слишком сложные симфонии сочиняет этот ваш AI Стэбл Дифужэн.
     
  • 1.46, Аноним (44), 22:58, 17/12/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    В общем, человек не нужен, мы поняли
     
  • 1.58, Нет времени обьъяснять (?), 23:03, 22/12/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Для поколения зуммеров музыка вполне приемлемого качества. Думаю для 99% современной молодёжи лучше и не придумаешь - надо же заполнить нишу которую занимали рэперы-наркоманы с ужасной дикцией.
     
  • 1.60, Bob (??), 21:04, 14/01/2023 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Зовите GPT Chat - надо пару песен написать!
     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Партнёры:
    PostgresPro
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2024 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру