Mozilla развивает инструментарий для распознавания речи Whisperfile

23.08.2024 13:07 (MSK)

Компания Mozilla развивает инструментарий распознавания речи Whisperfile, включающий независимую высокопроизводительную реализацию модели машинного обучения Whisper, разработанной и открытой организацией OpenAI. Инструментарий создан на основе whisper.cpp, реализации модели Whisper на C/C++, созданной Георгием Гергановым (автор llama.cpp). Код написан на языке С++ и распространяется под лицензией MIT.

Whisperfile развивается командой Mozilla Ocho и дополняет собой проект llamafile, предназначенный для создания универсальных исполняемых файлов для запуска больших языковых моделей машинного обучения (LLM). По аналогии с llamafile проект whisperfile позволяет на основе файла с параметрами модели машинного обучения в формате GGUF сгенерировать исполняемый файл, который может запускаться в различных операционных системах на оборудовании с процессорами AMD64 и ARM64. Скомпилированный код может связываться со стандартной Си-библиотекой Cosmopolitan, дающей возможность создавать сборки приложений, запускаемые в Linux, FreeBSD, macOS, OpenBSD, NetBSD и Windows.

При запуске исполняемого файла в качестве входного параметра передаётся файл со звуком речи в формате wav, mp3, ogg или flac, а на выходе сохраняется распознанный текст. На практике проект может применяться для решения таких задач, как генерация текстовых титров для видео, создание лога голосовых и видео вызовов, преобразования записанных голосовых материалов в текст, организации голосового ввода. При помощи Whisperfile подобные задачи могут решаться на локальной системе без обращения к внешним сервисам.

Дополнительно поддерживается работа в роли HTTP-сервера, обрабатывающего запросы на распознавание речи через Web API. Для ускорения работы с моделью могут быть задействованы GPU и инструкции AVX. Инструментарий также может выводить коэффициенты достоверности, позволяющие раскрашивать распознанные слова в зависимости от точности их определения.

Использованная модель Whisper натренирована на 680 тысячах часов речевых данных, охватывающих разные тематические области и языки (2/3 данные на английском языке). Модель хорошо справляется с распознаванием речи с акцентом, определяет технический жаргон, поддерживает автоматическое определение языка и может работать при наличии фонового шума. Для речи на английском языке система демонстрирует уровень надёжности и точности автоматического распознавания близкий к распознаванию человеком. Кроме транскрипции речи в текст, модель также может применяться для перевода речи на другой язык.

исправить +16 +/–

Лицензия: CC BY 3.0

Короткая ссылка: https://opennet.ru/61750-whisperfile

Ключевые слова: whisperfile, llamafile, file

При перепечатке указание ссылки на opennet.ru обязательно

Обсуждение (50)

1.1, Аноним (1), 13:45, 23/08/2024 [ответить] [﹢﹢﹢] [ · · · ]	–6 +/–
По сути никаких нововведений, просто очередной GUI-лаунчер к консольному Whisper.

2.2, Аноним (2), 14:00, 23/08/2024 [^] [^^] [^^^] [ответить]	+9 +/–
Это такой GUI на скриншоте?

3.19, Аноним (1), 16:00, 23/08/2024 [^] [^^] [^^^] [ответить]	–1 +/–
Новость о том, что развивают, а не что выпустили. На скриншоте оригинальная консольная прога.

1.3, Аноним (3), 14:00, 23/08/2024 [ответить] [﹢﹢﹢] [ · · · ]	+2 +/–
А что-нибудь лучше julius-speech уже придумали? Почему любое эффективное распознавание только на сервере у дяди в 2024 году?

2.6, anonymmmeer (?), 14:31, 23/08/2024 [^] [^^] [^^^] [ответить]	+/–
А как ещё тебя заставить платить подсписку?

3.7, Аноним (7), 14:34, 23/08/2024 [^] [^^] [^^^] [ответить]	+/–
Через госуслуги.

4.65, YetAnotherOnanym (ok), 11:28, 24/08/2024 [^] [^^] [^^^] [ответить]	–1 +/–
Кинь ссылку, где на Госуслугах оплата распознавания речи у дяди на сервере. Очень нужно, срочно.

2.21, Аноним (21), 16:17, 23/08/2024 [^] [^^] [^^^] [ответить]	+/–
Потому что тратили миллионы на сбор семплов и обучение нейронки на кластере с топовыми GPU не для того, чтобы отдать тебе бесплатно

3.62, Бывалый Смузихлёб (ok), 09:52, 24/08/2024 [^] [^^] [^^^] [ответить]	+/–
Или не миллионы. Ещё неизвестно какая там себестоимость

2.36, userd (ok), 20:24, 23/08/2024 [^] [^^] [^^^] [ответить]	+/–
с julius-speech не знаком. С vosk баловался - https://alphacephei.com/vosk/index.ru вполне приемлемо работает без сервера "у дяди".

2.70, prolabrus (?), 14:36, 24/08/2024 [^] [^^] [^^^] [ответить]	+1 +/–
Он поддерживает русский язык? В репозитории только японский и английский вроде бы

1.8, Wed (??), 14:34, 23/08/2024 [ответить] [﹢﹢﹢] [ · · · ]

+/–

Жаль, что у меня нет GPU, иначе я бы протестировал это.

2.16, Аноним (16), 15:41, 23/08/2024 [^] [^^] [^^^] [ответить]	+/–
Для этого с виду консольного приложения нужен GPU?

3.50, Аноним (50), 22:56, 23/08/2024 [^] [^^] [^^^] [ответить]	+/–
Ты наверно не знаешь что бывает видеокарты без выидео-выхода

2.17, Аноним (17), 15:49, 23/08/2024 [^] [^^] [^^^] [ответить]	+/–
Гпу и не нужно, просто скорость медленная будет.

2.60, Аноним (60), 02:35, 24/08/2024 [^] [^^] [^^^] [ответить]	+2 +/–
Родительский проект Whisper.cpp спокойно работает на CPU. "Спокойно" в смысле "неспешно", но работает.

1.10, Аноним (10), 14:45, 23/08/2024 [ответить] [﹢﹢﹢] [ · · · ]	+1 +/–
У меня у одного такое, после обновления до 129.0.2 одно ядра CPU уходит в 100% и в Firefox начинаются страшные тормоза. Debian 12.6

2.12, Аноним (3), 14:51, 23/08/2024 [^] [^^] [^^^] [ответить]	+1 +/–
> У меня у одного такое, после обновления до 129.0.2 одно ядра CPU > уходит в 100% и в Firefox начинаются страшные тормоза. Debian > 12.6 У меня таб зависает и выжирает память пока не будет прибит. Замечал, что может быть связано с частичной выгрузкой жирного таба в своп (и возможно vaapi), непонятно только, почему через рандомные периоды случается и ничего не пишет в лог.

1.14, Аноним (17), 15:10, 23/08/2024 [ответить] [﹢﹢﹢] [ · · · ]	+2 +/–
Кому вообще пришло в голову вставлять в файл для llm сам движок для её запуска, так ещё и в виде машинного кода? Это звучит как что-то максимально небезопасное, я уверен, что если провести хотя бы пару часов в репозиториях можно будет наклепать эксплоитов, и закинуть их доверчивым любителям переложить написание кода на компьютер. К тому же это всё крутится вокруг хака, позволяющего запускать машинный код без изменения на нескольких платформах (Что как хак, конечно, очень интересно, но, вопрос, кто додумался это использовать как серьёзное решение?)

2.15, Ося Бендер (?), 15:21, 23/08/2024 [^] [^^] [^^^] [ответить]	+1 +/–
Ясен пень, тому, кому это позарез нужно...

2.18, Аноним (18), 15:50, 23/08/2024 [^] [^^] [^^^] [ответить]

+/–

Это, вроде бы, два разных вопроса.

Прошить веса ллм прямо в файл, вроде бы, не проблема?

То есть, xbm/xpm это и есть Си.

А вот "космополит" это уже другой вопрос.

3.23, Аноним (17), 16:55, 23/08/2024 [^] [^^] [^^^] [ответить]	+/–
>Прошить веса ллм прямо в файл, вроде бы, не проблема? Так проблема не в весах, а в том, что они в файл модели вставляют движок для её запуска, который уже на этой самой библиотеке и работает, и это всё подаётся под видом простого способа распространять модели. Так вот, проблема в том, что любой вася может просто в когда llama.cpp вставить малварь, это всё собрать, и распространять как обычный файл - и никто ничего не заметит, пока слишком поздно не будет. А про космополита это уже вопрос к стабильности, решение выглядит мягко говоря зыбким.

4.30, Аноним (30), 18:58, 23/08/2024 [^] [^^] [^^^] [ответить]	+/–
Вася и в саму модель может встроить малварь: https://www.opennet.me/opennews/art.shtml?num=60691

5.38, Аноним (17), 21:05, 23/08/2024 [^] [^^] [^^^] [ответить]	+/–
Для того, чтоб такого не было придумали сейфтенсорс. И то, что есть одна уязвимость не оправдывает то, что они придумали один огромный вектор атаки. Да и ладно бы вектор, хрен бы с ним, так они ещё это позиционируют как лёгкий способ их распространять и запускать - ну прям самое то, чтоб всякие очень добрые граждане всяким блондинкам вшивали туда малвари.

2.27, Аноним (27), 18:25, 23/08/2024 [^] [^^] [^^^] [ответить]	+/–
> я уверен, что если провести хотя бы пару часов в репозиториях можно будет наклепать эксплоитов так в чём проблема? пострать пару часов, наклепай эксплойтов, и продай их кому-нибудь за B$$$$$$$. всяко полезнее, чем комменты строчить...

3.39, Аноним (17), 21:07, 23/08/2024 [^] [^^] [^^^] [ответить]	+/–
Я вам вектор атаки написал сверху - все максимально очевидно. Мне же лень этим заниматься, да и вшивать пока туда нечего.

3.56, Аноним (7), 00:11, 24/08/2024 [^] [^^] [^^^] [ответить]	+/–
А почему ты сам это не сделаешь тебе доллары на нужны? Так отдай их мне.

1.25, Аноним (25), 18:04, 23/08/2024 [ответить] [﹢﹢﹢] [ · · · ]

+1 +/–

> ... может выводить коэффициенты достоверности, позволяющие ...

Это то, что про ИИ нужно знать в первую очередь: ИИ выдаёт решения неверные, но с низкой вероятностью.

Т.е. это та штука, которую нельзя использовать для точных ответов или точных оценок. Т.к. оно по своей природе не даёт 100% верных ответов.

2.28, Аноним (3), 18:30, 23/08/2024 [^] [^^] [^^^] [ответить]	–1 +/–
На практике человек куда меньше верных и тем более точных ответов выдаёт. Это хороший инструмент, но важно осознавать его ограничения. Капиталистический подход заменить бесполезных людей ещё более бесполезными нейронками это тупик.

3.29, Аноним (29), 18:54, 23/08/2024 [^] [^^] [^^^] [ответить]	–1 +/–
Один AI-апологет мне задвигал, что в странах первого мира всем Universal Basic Income будет после полной автоматизации. А, соответственно, отсталые будут ещё больше загнивать и прозябать чем сейчас, с таким-то технологическим отрывом. Даже жаль, что из генераторов обтекаемых бредотекстов такой революции не вышло. Было бы интересно.

4.32, Аноним (3), 19:25, 23/08/2024 [^] [^^] [^^^] [ответить]	–2 +/–
GPT4 впечатляющая модель. Она умнее и догадливее большинства людей в интернете. Ограничения достаточно очевидны, но, если избавятся от галлюцинаций как-нибудь, научат сообщать о неспособности выдать приемлемый результат, самостоятельно фильтровать булшит, и будут дообучать в некоторых угольных случаях (таких, как программирование и современные технологии), она вполне сгодится на роль ассистента, значительно повышающего продуктивность работников. Конкуренты, конечно, грязь, и весь интернет заполнен результатами их "трудов".

5.34, Аноним (34), 20:14, 23/08/2024 Скрыто ботом-модератором [к модератору]	+/–

5.52, Ногоед (?), 23:32, 23/08/2024 [^] [^^] [^^^] [ответить]	+6 +/–
> если избавятся от галлюцинаций как-нибудь GPT не может без галлюцинаций. Чтобы их не было, нужна концепция, которая не является Generative Pre-Trained Transformers.

4.37, мшефд (?), 20:52, 23/08/2024 [^] [^^] [^^^] [ответить]	+/–
>в странах первого мира всем Universal Basic Income будет после полной автоматизации. При нынешней поведенческой модели человека, основанной на животных инстинктах, а не на разуме, человечество проср..т любые блага.

5.45, Аноним (45), 22:16, 23/08/2024 [^] [^^] [^^^] [ответить]	+/–
А ты попробуй жить разумом когда большой метеорит упадет на Землю. Или закончится нефть вместе с редкоземельными металлами.

6.63, Аноним (63), 10:14, 24/08/2024 [^] [^^] [^^^] [ответить]	+/–
А ведь ты действительно, фактически не имеешь понятия про то, о чём пишешь на публичном форуме... Не пиши больше, миру не нужна твоя юношеская наивная дезинформация. И вдогонку вопрос: а в котором часу в море закончится вот прям таки весь уран?

3.51, Ногоед (?), 23:30, 23/08/2024 [^] [^^] [^^^] [ответить]	+5 +/–
> На практике человек куда меньше верных и тем более точных ответов выдаёт. Но человек знает 100%, что 2х2 будет равно 4. А нынешний псевдо ИИ лишь предполагает, пусть и с 99.99999999...%. Думаю, вы поняли мысль.

4.64, Аноним (64), 10:47, 24/08/2024 [^] [^^] [^^^] [ответить]	–2 +/–
> Но человек знает 100%, что 2х2 будет равно 4. Потому что в школе так сказали.

1.31, Аноним (31), 19:25, 23/08/2024 [ответить] [﹢﹢﹢] [ · · · ]	+3 +/–
А браузер поразвивать Мозилла не желает?

2.35, Аноним (35), 20:24, 23/08/2024 [^] [^^] [^^^] [ответить]	+/–
Нет и не будет.

1.49, Аноним (49), 22:50, 23/08/2024 [ответить] [﹢﹢﹢] [ · · · ]	+1 +/–
>Mozilla развивает инструментарий распознавания речи ... чтобы вставить его в Firefox и подслушать как пользователи Firefox'а матерят Мозиллу

2.54, Полиглот (?), 23:40, 23/08/2024 [^] [^^] [^^^] [ответить]	+1 +/–
ФФ со встроенным переводчиком с русского переводит,а обратно нет. Не хотят поделиться как факать каждый предмет.

3.57, мяв (?), 01:47, 24/08/2024 [^] [^^] [^^^] [ответить]	+1 +/–
говорят, либревульф умеет и на русский

1.58, Аноним (58), 02:16, 24/08/2024 [ответить] [﹢﹢﹢] [ · · · ]	+1 +/–
Мозилла продолжает двигать кровати ... кастрированная субоптимальная программа ... для запуска большой языковой модели ... на ворохе платформ из одного бинарника ... через кривые хаки, сносящие нахрен как производительность, так и митигаци уровня ОС... под авторством транса.... Ну молодцы, Мозилла. Вместо нормального браузера какое-то буллшит-бинго. Извини, если мне потребуется whisper, то я его сам скомпилю. Только есть проблема: этот whisper столько оперативы жрёт, что его нигде, кроме топовых железок, крутить нельзя.

2.66, Аноним (66), 11:31, 24/08/2024 [^] [^^] [^^^] [ответить]	+/–
Несколько гигабайт потребляет всего.

3.75, Аноним (75), 18:18, 24/08/2024 Скрыто ботом-модератором [к модератору]	+/–

1.59, Аноним (58), 02:17, 24/08/2024 [ответить] [﹢﹢﹢] [ · · · ]	+1 +/–
Хозяйке на заметку: парсер формата GGUF для вороха ЯП: https://github.com/kaitai-io/kaitai_struct_formats/pull/698

1.72, Nochi (?), 15:23, 24/08/2024 [ответить] [﹢﹢﹢] [ · · · ]	–2 +/–
Лучше бы занялись добавлением функций, и улучшением дизайна, а то многое вырезали с браузера..

1.76, Аноним (-), 19:31, 24/08/2024 Скрыто ботом-модератором [﹢﹢﹢] [ · · · ] [к модератору]	–1 +/–

1.79, xsignal (ok), 16:05, 02/09/2024 [ответить] [﹢﹢﹢] [ · · · ]	+/–
А для немецкого что-то похожее есть?

игнорирование участников | лог модерирования

Добавить комментарий

Текст: