Компания Mozilla развивает (https://hacks.mozilla.org/2018/11/lpcnet-dsp-boosted-neural-.../) новую систему синтеза речи LPCNet (https://people.xiph.org/~jm/demo/lpcnet/), которая дополняет ранее запущенную (https://www.opennet.me/opennews/art.shtml?num=47648) инициативу по разработке системы распознавания речи. LPCNet обеспечивает более эффективный синтез речи благодаря комбинированию традиционных методов цифровой обработки сигналов (DSP) с механизмами синтеза на основе машинного обучения.
Несмотря на то, что современные модели синтеза речи на основе нейронных сетей, такие как WaveNet (https://deepmind.com/blog/wavenet-generative-model-raw-audio/), позволяют добиться превосходного качества синтеза, их реализация сильно усложнена и требует большой вычислительной мощности. Данная особенность затрудняет использование подобных систем для синтеза речи в режиме реального времени на таких устройствах, как телефоны. В качестве выхода в LPCNet предлагается (https://jmvalin.ca/papers/lpcnet_icassp2019.pdf) использовать первичный синтез с использованием DSP с последующим применением нейронной сети для улучшения результата.Помимо синтеза речи LPCNet также может применяться и в других областях, требующих повышения качества голосового сигнала. Например, LPCNet подходит для создания технологий сжатия речи для передачи по низкоскоростным каналам связи, для устранения шумов, для изменения скорости воспроизведения речи, для фильтрации результата работы различных кодеков и для синтезирования недостающих фрагментов, утерянных из-за потери пакетов.
Исходные тексты реализации LPCNet распространяются (https://github.com/mozilla/LPCNet) под лицензией BSD. Код написан на языке Си с использованием Keras (https://keras.io/), высокоуровневого фреймворка для построения нейронных сетей, который может работать поверх TensorFlow, CNTK и Theano. Для работы требуется
GPU (достаточно GT1060, но для обучения модели рекомендуется использовать более мощный GPU с поддержкой CUDA и CUDNN, напрмер GTX 1080 Ti). Для загрузки доступны (https://jmvalin.ca/misc_stuff/lpcnet_models/) уже готовые модели, натренированные на голосовых данных (http://www-mmsp.ece.mcgill.ca/Documents/Data/) от лаборатории университета Макгилла. Систему можно обучить и на своих данных, для этого потребуется несколько часов аннотированных записей голоса.
URL: https://hacks.mozilla.org/2018/11/lpcnet-dsp-boosted-neural-.../
Новость: https://www.opennet.me/opennews/art.shtml?num=49639
Достаточно GT1060 для работы синтеза речи? Да вы поболели там чтоли? У меня 16-18 лет назад синтезатор речи на компьютере уровня второго пня работал если и чуть хуже, но не кардинально для понимания.
Мне на линуксе до сих пор Алёны не хватает. :-(
http://hire7.net/2008/08/18/golosovojj_dvizhok_acapela_alyon...
Честно говоря, сейчас я им не пользуюсь. Но тот, что стоит по-умолчанию в Debian — это тихий ужас, festival в 10 раз лучше.
под линукс есть только один синтезатор на русском нормальный ,на сколько я знаю, - это RHVoice. Мозиловцы лучше бы сделали нейросеть которая анализирует на видеокарте аудиозапись речи и созадёт файл для фестивала или flite с голосом, который работал бы без видеокарты,а то что они придумали это лажа...
> под линукс есть только один синтезатор на русском нормальный ,на сколько я знаю, - это RHVoice. Мозиловцы лучше бы сделали нейросеть которая анализирует на видеокарте аудиозапись речи и созадёт файл для фестивала или flite с голосом, который работал бы без видеокарты,а то что они придумали это лажа...Плюсую за RHvoice
Сам синтезатор может быть очень хорошим, но если его интеграции нигде нет, то как пользоваться?
> Сам синтезатор может быть очень хорошим, но если его интеграции нигде нет, то как пользоваться?Тут собственно вопрос не в интеграции, а в простом человеческом ненужно.
Я не знаю например ни одного реального юзкейса применения синтезатора кроме интерактивных автоответчиков. А ты ?
Там где нужен голос - проще записать несколько дорожек на все случаи жизни.
Но все равно область применения этого всего я представляю смутно. Одно время пробовал повесить RHvoice на мою самописную тулзу для мониторинга серверов (аки Nagios). Классно. Если друзьям показать. А вот если с этим находиться в одной комнате, то уже все не так радужно.
Книги, сайты читать, не?
> Книги, сайты читать, не?Не.
Во-первых, ты уверен что хочешь слышать все что выводит сайт форумы поиск регистрация скачать бесплатно без смс мокрые писечки ?
Во-вторых, проанализируй свой собственный алгоритм прочтения книги. Например ребенку. Интонации. Ударения. Повышение и понижение голоса в зависимости от сцены. На основе чего ты выбираешь интонацию. Когда ускоряешься, а когда наоборот замедляешься. Без этого всего, чтение книги будет лишь монотонным бубнением, и основная проблема здесь не диктовка, а как раз восприятие написанного. Ну а чтобы воспринимать написанное нужен весьма недурственный такой ИИ, при чем не тот которым называют хипсторские парсеры на Go или пицтоне, а именно обучаемый.
Иногда нужно просто прочитать текст. Не важно как. Хоть почту зачитать, Хочу посидеть с закрытыми глазами и пусть он читает. В конце концов, зачем весь этот прогресс? Давно уже должны были голосовыми командами управлять компьютером и чтобы он читал.
я тоже не понимаю, зачем весь этот прогресс - еще три тысячи лет назад раб прекрасно читал свиток, как положено, с интонациями и внятным голосом. Можно было сидеть, закрыв глаза, и нормально слушать. Если раб сбивался или шепелявил, его просто отправляли в каменоломню.
Теперь раб зачем-то пишет кривой код, бубнящий невоспринимаемую информацию, а свиток еще и ocr обрабатывает - тоже отвратительно и с кучей проблем на пустом месте. Да еще и вместо каменоломни едет в Гоа.
Раб - не человек. Раб - вещь. Раба можно купить, продать, утилизировать (не убить, он не человек), использовать как игрушку (во всех смыслах),... А современному наемнику нужно платить ЗП, соблюдать права, и т.д..
Да, с рабами было проще. Но кто Вам сказал, что Вы не были бы рабом?
и чего - быть прикованным к монитору вам больше нравится, чем читать свитки хороших авторов?а утилизировать, использовать и так далее - вас и сейчас прекрасно получится.
Не мало людей с проблемами по зрению.
Но ведь здоровые о них никогда не думают, пока сами не ослепнут, верно?
> Не мало людей с проблемами по зрению.И ты хочешь чтобы к ним добавились проблемы со слухом?)
Я помню своего деда, постепенно теряющего зрение. Этого мне достаточно чтобы понять важность TTS программ. Тогда их не было...
> Я помню своего деда, постепенно теряющего зрение. Этого мне достаточно чтобы понять важность TTS программ. Тогда их не было...spp.exe
Эх ты, поколение ВНО :)
>> Я помню своего деда, постепенно теряющего зрение. Этого мне достаточно чтобы понять важность TTS программ. Тогда их не было...
> spp.exe
> Эх ты, поколение ВНО :)Я даже помню этот жуткий голос из спикера . Это не TTS.
"Интонации. Ударения. Повышение и понижение голоса в зависимости от сцены"
Это все не нужно, если сконцентрироваться на смысле. Кроме того, при наличии настоящей озвучки книги, я все равно выбираю искусственную, потому что она нейтральная, ей все равно что читать, без своих эмоций на происходящее.
"Читал" много фантастики Говорилкой. Сначала (и как говорили со стороны) - полная белеберда. Не разобрать слов и голос режет слух, не говоря уже о том, что скорость 120 слов в минуту.Но через 3-4 часа я привык и к скорости, и к тону, и к не всегда корректному распознаванию знаков препинания (вопросительная интонация, вместо восклицательной). Даже к тому, что некоторые имена распознавались как сокращения (например имя Дес звучало как "десятичный").
А самое интересное, что после привыкания я стал не только понимать интонацию, но и воспринимать голоса героев по-разному. Мозг сам подстроился и стал добавлять то, что отсутствовало в озвучке. Примерно также, как и при чтении бумажной книги.Короче говоря вполне применимо, для чтения книг без картинок и формул. А с учетом того, что за мониторами я и так провожу по 10-12 часов в сутки, чтение синтезатором - хороший выбор.
Обалдеть. Раньше нам обещали что компьютеры будут всё умнее и ИИ поможет жить и будет подстраиваться под человека. А по факту получаем отупление и упрощение - человек подстраивается под машину. Рубилиштейна тватцать читири, ага.
Знаю я одного такого. Он через неделю сам стал говорить как эта говорилка - равномерные паузы, отсутствие интонации...Наx так жить?
> Он через неделю сам стал говорить как эта говорилкане показатель, проф. чтеца слушать трудно, он неискреннен, он слишком присутствует, он непостоянен, а на машинном синтезе (без нейросети) все форманты одинаковы, что уж не нравится подправляешь транскрипцией. нет, хорошо конечно, что есть люди легко воспринимающие анимированный щебет
Во первых, Говорилка это просто GUI, а не движок, во вторых, профессиональные движки вроде IVONA давно уже говорят с интонацией и ударением.
Действительно после 10 часов за чтением нормативной документации на работе, прослушивание новостей на максимальных скоростях в говорилке самое то. Но если для Винды есть Balabolka, то для Ubuntu или Manjaro через костыли приходится прикручивать RHVoice, что для гуманитария не очень удобно. RHVoice на линукс запускаю в итоге через самописную недоделанную програмку на питоне (предложения с кавычками не читаются, приходится удалять перед вскармливанием движку) или в терминале, что совсем неудобно.
Ivona довольно хороший движок с голосами Максим (им говорит робот-матершинник из Бостондинамикс на каналах Ютюба) и Татьяна, но вот в коммерческих целях их использовать нельзя (так написано в лицензионном соглашении). В общем в свободное время планирую кидать жалобы с целью заблокировать ютюб-каналы монетизирующие трафик,которые используют эти голоса, дабы стимулировать развитие опенсора))
> Но через 3-4 часа я привык и к скорости, и к тону,Ну не, так не пойдет. Такой голосовой интерфейс создает больше проблем чем решает. Напоминает мне голосовой набор в мобиле. Вроде, удобная штука была. Но вот при полусотне контактов с голосовыми тегами имеет свойство выбирать совершенно не того кого просили. После пары звонков совершенно не тем кому хотелось и результирующих непоняток - фича как-то была отложена в дальний угол и забыта.
Какая интонация, какие ударения, я книги читаю молча, никому в поезде не интересно что я там читаю, ударения все современные синтезаторы умеют ставить, надо просто словарик подгрузить.
Читалки часто и многие используют для чтения книг, не все книги озвучивают ибо профессионально.
Некро, но отпишусь)
Соглашусь по поводу книг. Как-то немного удосужился поиграть в театре. Сцена была с двумя актёрами. Самым нудным было учить диалог. Решил немного автоматизировать: говорю свою речь, шлёпаю пробел, комп мне отвечает речь апонента, потом опять я свою и т.д. Быстро накостылял на этом самом RHVoice, попробовал и понял - хрень. Ты бла-бла с интонацией, паузами и т.д., а тебе в ответ просто сухая фраза. Немного пожалел, что в RHVoice нет тегов ударений и интонаций (или просто не нашёл). Ранее видел такую фишку в виндузовской озвучивалке.
Я с грустью вспоминаю кнопку в Konqueror "Зачитать текст". Поскольку система TTS в KDE всегда переживала переломный период, эта кнопка, можно сказать, не работала, но так была нужна. Иногда прям вусмерть. Орки эти читают прям всё где мышка находится, это идиотизм какой-то. RHVoice скриптами надо прикручивать... А ещё альтернативы? Никаких не знаю.
Пока молод и горяч оно всё кажется, "да кому это надо?", а как болезнь какая прижмёт, или старость, то оказывается, что одни могли бы сделать, но им не нужно. А другим нужно, но сделать это вслепую не очень получается.
Область применения таких вещей — нагружать всякой разрекламированной чепухой твою видеокарточку и другое железо, чтобы ты их регулярно обновлял. Никаких других реальных применений нет. За продвижением «сумасшедших инноваций» (которые не инновации) типа «криптовалют» (которые не валюты), ИИ (который не ИИ), распознавание образов, речи и так далее стоят крупнейшие вендоры железа. Впрочем, Невидия уже допрыгалась. :)
Это просто называется искусственным спросом, чтобы стимулировать продажи. Таково колесо капитализма
> Это просто называется искусственным спросом, чтобы стимулировать продажи. Таково колесо капитализмаОднако ж в этом есть и рациональное зерно...
- Компьютер, свет!
- Исполняю.А поди удобно, если это прям из теплой кровати, не шарясь в темноте по выключателю...
> Я не знаю например ни одного реального юзкейса применения синтезатора кроме интерактивных
> автоответчиков. А ты ?1 Вы, а не ты!
2 Книги, документы, мессенджеры, да эти же комментарии.
3 У фестиваля задержка в несколько секунд перед началом и загрузка проца в этот момент. У акапелы такого не было, читала сразу и проц не грузила.
> Я не знаю например ни одного реального юзкейса применения синтезатора кроме интерактивных автоответчиков.А я хотел бы, чтобы мой смартфончик читал мне в поездке мануал.pdf на новую железку или софтину.
> А я хотел бы, чтобы мой смартфончик читал мне в поездке мануал.pdf
> на новую железку или софтину.Очень интересно как должно выглядеть чтение скриншота, диаграммы, схемы и тому подобных вещей. А без этого - толку то с чтения пдф-а? Не говоря о том что глазами это схватится за полсекунды, а голос будет минуту это жевать.
Тут сфера применения - разного рода "умные помощники" - от алексы сотоварищи до интерфейсов в магазинах, телефонных роботов, "горячих линий" и прочего, где надо по-человечески воспроизводить то, что сгенерировано нейросеткой
> Сам синтезатор может быть очень хорошим, но если его интеграции нигде нет,
> то как пользоваться?А там многое сделано для того чтобы интеграции и не было. Какая-то навороченая плюсятина, с какой-то жутко экзотичной билдсистемой. Захочешь не заинтегрируешь, потому что это явно не предусмотрено.
> Мозиловцы лучше бы сделали нейросеть которая анализирует на видеокарте аудиозаписьЛучше бы они сделали нейросеть, которая сама пишет браузер …
так они, походу, уже сделали. Вот такую фигню и пишет, как и разговаривает.
Нейросеть эта, что характерно, частью родом с Индостана, а частью из феминизма.
> Мозиловцы лучше бы сделали...
> ...а то что они придумали это лажа...Каждый диванный анон лучше знает, чем заняться другим.
В случае мозилловцев так и есть. Они давно уже не в ту степь бегут.если я, вместо того, чтобы оперировать каждый вечер, начну у себя в квартире петь хором, у меня настанет разруха. Если я, входя в уборную, начну, извините за выражение, мочиться мимо унитаза и то же самое будут делать Зина и Дарья Петровна, в уборной начнётся разруха. Следовательно, разруха не в клозетах, а в головах.
> Следовательно, разруха не в клозетах, а в головах.Странноватый пример. Это же свободный проект - люди вольны делать то, что им хочется и в том виде, в каком считают правильным. Несогласные же, в свою очередь, или выбирают другой аналогичный продукт, или пишут свой собственный, если в силах. Мозиловцы не обязаны кому-то угождать, как и все другие.
> Это же свободный проект - люди вольны делать то, что им хочетсяэто свободный проект на деньги мурзила-фоундейшн (отдельный вопрос - откуда у идиотов столько денег и точно ли дело в идиотии). Соответственно, делать они будут то, что требуется.
> Несогласные же, в свою очередь, или выбирают другой аналогичный продукт,
если он существует
> или пишут свой собственный, если в силах.если в силах убедить очередной фоундейшн дать денег именно им. Это возможно - но писать ты будешь опять же то что хочет новый фоундейшн, а не то что хочешь только ты.
> Мозиловцы не обязаны кому-то угождать, как и все другие.
они обязаны обанкротиться - и к этому, в общем-то, вполне успешно идут. Сколько там уже процентов осталось от их браузера - 6?
А от говорилки денег на зарплату кумарам не обломится. Яха вон тоже много чего понаразрабатывала, не совсем даже бесполезного - но от банкротства ее спасла только покупка китайского магазина хлама.
Не то чтобы было жалко инвесторов фоундейшна - жалко себя. Потому что выбор, который ты описал, существует только в твоих прекрасных фантазиях. А тот на который я исправил - это не выбор, опять мазила получится.
>> Мозиловцы не обязаны кому-то угождать, как и все другие.
> они обязаны обанкротиться - и к этому, в общем-то, вполне успешно идут.
> Сколько там уже процентов осталось от их браузера - 6?Да-да, именно это. Хоть и отгоняет конспирологией, но по-другому не объяснишь. А что, разве плох такой способ убивать конкурентов? Зато все спят спокойно и никто не возмущается: само ведь сдохло. Причём люди за работу получали зарплату, за справедливость боролись.
"Мне на линуксе до сих пор Алёны не хватает."
Ивона Татьяна ведь качественнее. А мне не хватает Лиама.
"Мне на линуксе до сих пор Алёны не хватает"
Акапеловские голоса, включая Алену, есть на андроиде, а его с натяжкой можно назвать Линуксом. Также есть на OS X https://www.assistiveware.com/products/infovox-ivox которую с натяжкой можно назвать Unix.
OS X к Unix формально больше отношения имеет, чем Linux к Unix. :)
> синтезатор речи на компьютере уровня второго пня работал если и чуть хужеНу сказки рассказывать про "чуть"... Это на простых примерах ещё худо бедно сработает, иначе нет.
>Код реализации LPCNet написан на языке Си с использованием KerasЩИТО?
>Python 99.9% Other 0.1%
https://github.com/mozilla/LPCNet/tree/master/src
на Python там только построение нейронной сети.
>Keras is a high-level neural networks API, written in Python and capable of running on top of TensorFlow, CNTK, or Theano.)
Вы где взяли Python 99.9%?
https://github.com/keras-team/keras
А ниже спускаться не пробовали?TensorFlow — С++, Theano — NumPy — C, CNTK — C++. Keras — это API для вышеприведённых фреймворков.
речь шла о том, что штука написана на Си. Но из си не имеет смысла пользоваться керасом.
Там на C они извлекают данные из файлов. А потом отдельным скриптом на гвидопыхе тренируется. Никто там не пытается запускать Keras из C. Там, по сути, три исполняемых файла, два из которых -- на Python.Формально штука написана на C и Python (Keras), получается.
Время от времени Mozilla делает что-то реально полезное.
> Время от времени Mozilla делает что-то реально полезное.Я бы сказал что она делает что-то реально монструозное. Как эта помесь сей с питоном к которой без 1060 не подходи. Вспоминая как речь сносно синтезировали еще чуть ли не амиги с процами которые дохлее первопня в разы - ничего кроме фэйспалма сделать не получается. Куда и зачем все это адовое месиво фреймворков предлагается девать?
И конечно же, оно поддерживает лишь CUDA, причем для работы, а не только для обучения.
Опенсорсность аж по монитору течет.
Не совсем верно. Есть реализации CUDA поверх OpenCL, народ говорит, что рабочие и что tensorflow пашет, есть фреймворки для вычислительных графов поверх OpenCL. Благодаря ONNX модели переносятся между фреймворками.
Ага, надо просто научить пальцы изгибаться в обратную сторону.
Попробуйте на VUDA https://github.com/jgbit/vuda - может заработает?А вообще это не вина мозиллы. Они же не напрямую CUDA используют! NVidia очень хорошо вложилась в разработку библиотек, в итоге имеем TensorFlow, Theano и прочие, отлично работающие поверх CUDA. Что мешает компании из трех букв (либо кому-то еще) так же хорошо вложиться и обеспечить их работу поверх OpenCL?
У текущих разработчиков на это определенно нет ресурсов, о чем они много раз говорили. Гугл спонсировать работу TensorFlow поверх OpenCL не планирует: https://github.com/tensorflow/tensorflow/issues/22
Поддержка OpenCL в Theano весьма грустная: https://github.com/Theano/Theano/issues/2936 цитирую "We didn't had time to bring this to a usable state. We won't do it.".Возьмите и вложитесь в разработку! NVidia вот вложилась, предоставила общественности https://developer.nvidia.com/cudnn и пожинает плоды. У людей из оупенсорса, поддерживающих TensorFlow или Theano своих ресурсов на это не хватает. А мозилла тут вообще не причем, использует то, что есть. Хорошего фрейморка не поверх CUDA просто нет.
> Что мешает компании из трех букв (либо кому-то еще) так же хорошо вложиться и обеспечить их работу поверх OpenCL?Биржевые показатели курса акций Невидии. Имеющий глаза да видит. :)
>> Что мешает компании из трех букв (либо кому-то еще) так же хорошо вложиться и обеспечить их работу поверх OpenCL?
> Биржевые показатели курса акций Невидии. Имеющий глаза да видит. :)Ммм? Они намного лучше, чем у AMD. Правда, в последние пару недель опустились, когда стал ясен фейл с серией RTX, но это не имеет отношения к CUDA, машинному обучению, теслам и прочим серьезным вещам. Это мелочи, впрочим - снизят премию хуангу https://overclockers.ru/hardnews/show/94527/na-fone-snizheni... и оно снова будет расти (впрочем, уже растет).
Они сильно просели. Для акционеров нет ничего хуже такой динамики.
> Они сильно просели. Для акционеров нет ничего хуже такой динамики.Да ну, вообще ни о чем. Все равно выше, чем было полтора года назад. При этом доходы растут; докинут еще на рекламу, будут RTX лучше брать и акции вверх пойдут. А пока это просто повод кому-то хорошо прикупить акций перед ростом.
Вон у AMD обваливалось недавно значительно сильнее - с середины сентября по конец октября более чем в два раза упали. И ничего, пошло вверх.
Не, это не флуктуация или спекуляция, а есть конкретная причина: Невидия наклепала продукции для майнеров, но реализовать её некуда. Затоварились ребята.Ещё и Apple посыпались акции. И тоже есть конкретная причина.
Не хотелось бы обнаружить во всём этом закономерность, но таковая в принципе возможна: пузырь капитализации из завтрашних обещаний рано или поздно должен лопнуть. Вонять будет хуже, чем от доткомов. :)
> Не, это не флуктуация или спекуляция, а есть конкретная причина: Невидия наклепала
> продукции для майнеров, но реализовать её некуда. Затоварились ребята.Ну, пока цена акций все равно выше до-майнингового уровня.
Кто опенсоссам платит, тот их и опенсоссит.
а почему не rust?
Next version
Потому что им надо чтоб работало, а не пердолинг.
"Систему можно обучить и на своих данных, для этого потребуется несколько часов аннотированных записей голоса"
Круто, можно увековечить голос любимого человечка.
А запинаться, говорить "эмм", "вобщем" и "короче" она тоже научится?
Да
Интересно, а можно ли проделать следующее. Какому-то Васе звонит его мама:- Как у тебя дела, сынок? У меня всё хорошо.
Тут же в реалтайме синтезируется другая речь и сыну проигрывается голосом мамы:
- Как у тебя дела, сынок? Вышли мне 1000 рублей на карточку 0001 0001 ...., приболела я...
в ваших мечтах разве что ;)
Это не в "мечтах". Одну знакомую 5 лет назад так развели. "Мама, я сбил человека" - всем известный уже развод того времени. Вот только позвонили и сказали голосом её сына, а человек был пожилой и от компьюторов далёкий, хотя программы для изменения голоса по по образцу (не такие совершенные, как на нейросетях, но всё же были) есть ещё с 2005 года. И человек вынес все деньги и драгоценности.
Кстати прецеденты применения синтеза речи для всяких разных дел уже не редкость и не экзотика. Уж позвонить и общаться при помощи синтезатора, чтобы по голосу не узнали - баян из баянов, практиковавшийся лет 10+ назад.
Сегодня выяснилось что Tensorflow либы для Го не работают тк гдето в недрах гугла чето перепахали и уже неск месяцев починить эту пое...нь не могут.
игогоши должны страдать
> игогоши должны страдатьУ любого хипста-софта период полураспада не более 2 лет. Любых пихтонрастов касается совершенно одинаково - наворотить гору байтов по быстрому на модную тему они могут. А майнтайнить это - оказывается, грязная и скучная работа, совсем не эпично, блин.
синтез речи добавили, чтобы впендюрить в свой браузер через месяц запись голоса и отсылать его на сервера гугла и мозиллы?
Синтез речи давно уже есть, даже на онтопике работает. А recognition api давно нужно добавить как в хроме, чтобы гуглопереводчику и речевым блокнотам звук скармиливать, а получать транскрипт и/или перевод.
> Синтез речи давно уже есть, даже на онтопике работает. А recognition api
> давно нужно добавить как в хроме, чтобы гуглопереводчику и речевым блокнотам
> звук скармиливать, а получать транскрипт и/или перевод.Чтобы рекапчу скармливать. А поди плохо, припахать гугла свою же капчу распознавать. Пусть у них роботы там порубаются на предмет кто кого.
Синтезатор мозиловский - это программа, которую можно установить к себе и озвучивать, например, тексты?
А что за модельку использует Апихост для клонирования голоса? Может кто знает, https://apihost.ru/voice-cloning/