Группа исследователей из Массачусетского технологического института разработала (http://newsoffice.mit.edu/2014/algorithm-recovers-speech-fro...) технику (http://people.csail.mit.edu/mrub/VisualMic/) воссоздания речи на основе анализа вибрации предметов в видеозаписи. Для воссоздания речи достаточно записи с частотой 60 кадров в секунду и наличия в кадре легко вибрирующих предметов, таких как упаковка от чипсов, стакан воды и даже листья комнатных растений. Процесс анализа является достаточно ресурсоёмкой операцией и требует нескольких часов вычислений на современном персональном компьютере.
Техника воссоздания речи по вибрации предметов не нова и активно используется спецслужбами для организации подслушивания в помещениях по вибрации оконного стекла или предметов. Но до сих пор для воплощения данной техники требовались специализированные высокочувствительные устройства, такие как лазерные микрофоны. Новый метод позволяет обойтись обычной видеокамерой с разрешением порядка 700x400.
Суть метода в том, что для того чтобы уловить колебания предмета в несколько микрометров, которые невозможно заметить через перемещение пикселей (изменение в 5/1000 пикселя), используется анализ изменения цвета отдельных пикселей граничных областей предметов. Камера не улавливает малые вибрации на уровне перемещения пикселей, но отражает их через аберрации цветового спектра. Изначально эксперименты проводились с использованием высокоскоростных камер, способных снимать с частотой 2-6 тысяч кадров в секунду, но по мере усовершенствования техники разработчики смогли обеспечить разбор речи и при съёмке обычной DSLR-камерой, выдающей 60 кадров в секунду.
<center><iframe width="640" height="360" src="//www.youtube.com/embed/FKXOucXB4a8?rel=0" frameborder="0" allowfullscreen></iframe></center>URL: http://newsoffice.mit.edu/2014/algorithm-recovers-speech-fro...
Новость: http://www.opennet.me/opennews/art.shtml?num=40349
Где можно заказать чугунные цветы вместо предательских живых?
Бычий пузырь вместо стекла не забудь натянуть.
Он еще хуже вибрировать будет.
> Он еще хуже вибрировать будет.ХМ. Думаю данную технологию легко заглушить ультразвуком не сильно большой мощности ...
Всё ещё проще. Под глушилки на оконные стёкла — используют маленькие вибры, мобилки для этого подходят, особенно старые. А фонящие предметы при переговорах предусмотрительно убирают, закрывают тканью.
Я конечно не специалист по анализу гармонических колебаний, но если вчитаться то получается какая-то хрень ... Камера с частотой кадров 60fps, т.е. частота съема информации (частота дискретизации) 60 Hz, но у самых низких голосов (типа оперный бас) нижняя граница голосового диапазона порядка 80 Hz, а у среднего человека 100-200 Hz минимум. Как вообще можно что-то распознать, если частота дискретизации в два и более раз меньше чем частоты, которые пытаются анализировать????? Или я что-то путаю?
> Камера с частотой кадров 60fps, т.е. частота
> съема информации (частота дискретизации) 60 Hz, но у самых низких голосов
> (типа оперный бас) нижняя граница голосового диапазона порядка 80 Hz, а
> у среднего человека 100-200 Hz минимум. Как вообще можно что-то распознать,
> если частота дискретизации в два и более раз меньше чем частоты,
> которые пытаются анализировать????? Или я что-то путаю?Ну, если переводчики не переврали, то идея как-раз в том, что анализируется не весь кадр сразу, а построчно, с учетом особенностей работы современных сенсоров камеры. При съемке на кинопленку такой фокус, естественно, не пройдет. А на современных работает за счет того, что разные строки сканируются в разное время, т.е. кадр несет в себе информацию не об единовременном состоянии колеблющейся поверхности, а о процессе колебаний на протяжении времени сканирования. Таким образом, частоту кадров нужно умножить как минимум на 0.1 количества строк, т.е. 60*40=2400 Гц, что уже приемлемо для снятия более-менее разборчивой речи. Естественно, о передаче тембра голоса речь не идет ;)
> Ну, если переводчики не переврали, то идея как-раз в том, что анализируется
> не весь кадр сразу, а построчно, с учетом особенностей работы современных
> сенсоров камеры. При съемке на кинопленку такой фокус, естественно, не пройдет.
> А на современных работает за счет того, что разные строки сканируются
> в разное время, т.е. кадр несет в себе информацию не об
> единовременном состоянии колеблющейся поверхности, а о процессе колебаний на протяжении
> времени сканирования. Таким образом, частоту кадров нужно умножить как минимум на
> 0.1 количества строк, т.е. 60*40=2400 Гц, что уже приемлемо для снятия
> более-менее разборчивой речи. Естественно, о передаче тембра голоса речь не идет
> ;)Ну это пожалуй хоть какое-то логическое объяснение ..., но все равно progressive scan и т.д. и метод в жопе ))
> съема информации (частота дискретизации) 60 Hz, но у самых низких голосов
> (типа оперный бас) нижняя граница голосового диапазона порядка 80 Hz,А там не надо весь спектр. Достаточно амплитуду колебаний под действием типичных звуков декодировать. В словах много меньше информации чем частота звука * 2. На этом принципе работают голосовые кодеки, передавая сильно меньше информации. Поэтому по вибрациям которые вызваны суммарной средней мощностью звукового сигнала вполне можно реконструировать типичные сочетания звуков и слова. А вот эти уже меняются медленно. Пока вы там каждую букву промямлите, камера на 60FPS несколько кадров как раз сделать и успеет. А дальше сдвиг поверхности "от произношения вот этого звука" уже не так сложно посчитать, видимо.
p.s. да, цифровые методы обработки еще не раз подложат вам сюрпризов. Это для вас "ничерта не разобрать". А для цифровых машин минимальное отличие в цвете например вполне достаточно для реконструкции картинки после некоей обработки. Вы их здорово недооцениваете...
>> съема информации (частота дискретизации) 60 Hz, но у самых низких голосов
>> (типа оперный бас) нижняя граница голосового диапазона порядка 80 Hz,
> А там не надо весь спектр. Достаточно амплитуду колебаний под действием типичных
> звуков декодировать. В словах много меньше информации чем частота звука *
> 2.вот я и спрашиваю, как имея частоту съема (дискретизации) В ДВА И БОЛЕЕ РАЗ МЕНЬШЕ чем минимальная частота АНАЛИЗИРУЕМОГО спектра (а не ширина спектра) можно вообще говорить о каких то амплитудах, когда вы этом случае даже не известно сколько циклов колебания прошло между съемами ))
> На этом принципе работают голосовые кодеки, передавая сильно меньше информации.кодеки работают совершенно по другому принципу и решают совершенно другие задачи - хотя бы тот факт, что у него, кодека, на входе "чистый" сигнал. Он лишь режет не существенные гармоники и пытается уложить информацию в заданную полосу пропускания.
> p.s. да, цифровые методы обработки еще не раз подложат вам сюрпризов. Это
> для вас "ничерта не разобрать". А для цифровых машин минимальное отличие
> в цвете например вполне достаточно для реконструкции картинки после некоей обработки.
> Вы их здорово недооцениваете...Цифровая машина - это датчики (звуковые, световые (матрицы и т.д.), шины данных, ЦПУ (контроллеры) и самое главное и пожалуй решающие - это алгоритм (программа) т.е. логика программиста, основанная на физических законах. Вот я и пытаюсь рассмотреть данную проблему с точки зрения физики процесса, а не как какую-то неебически волшебную уйню черного цвета. Выше комрад предположил, что хитрость в построчном сканировании, с чем я согласен так как с точки зрения опять же физики процесса это уже позволяет делать некий анализ.
А то что написано вами выше это алхимия мозга ...
Пользуй кактусы, Люк. У них листьев.
Трезвая мысль. Можно убить сразу двух зайцев если найти ещё и вкусные кактусы:)
> Трезвая мысль. Можно убить сразу двух зайцев если найти ещё и вкусные кактусы:)FAIL: "убитые зайцы" в кадре будут вибрировать не хуже фикуса.
> Можно убить сразу двух зайцев если найти ещё и вкусные кактусы:)Трёх зайцев. Кактусы можно использовать ещё и для поглащения радиации и электромагнитного излучения.
(у нас на работе парачка пользователей так защищают себя от радиации)
хм, думал его убили, оказывается его кактусы захватили
Прочитав коментарий ну просто настоение поднимаеся давно я така не смеялся ребята, особенно коментарий про "чугунные цветы" ну просто плакал. вот такой вот мотиватор. Спасибо.
Приходи к нам на ЛОР -- гипервентиляция лёгких тебе обеспечена:)
Облизывать модераторов это так весело.
Вот не надо сарказма. В любой бочке с мёдом есть ложка дёгтя. Вон на хабре ещё и друг друга облизывать надо...
> Вон на хабре ещё и друг друга облизывать надо...Ахтунг! Хабрасеки!
> Вот не надо сарказма. В любой бочке с мёдом есть ложка дёгтя.Может лор и бочка, но уж точно не с медом. Ресурс на домене 3-го уровня - понятно что из себя представляет. Ну и модераторы под стать - модерастят очень избирательно, по своему вкусу. В результате полон ресурс забаненых аккаунтов, а обстановка все-равно полная помойка.
Параноики плакали, кололись, но продолжали есть невибрирующие кактусы.
> Где можно заказать чугунные цветы вместо предательских живых?Благодарные наследники в оградке вокруг холмика установят.
> Где можно заказать чугунные цветы вместо предательских живых?В Донецке из рельсов выращивают чюгуниевые деревья. Попробуй там заказать.
На брезентовом поле?
Ну, можно по нему огуречную плеть пустить. На чорном чюгунии - серебристо-белый люминь.
У нас тут место для передачи шифтовок ополчения чтоль?
> У нас тут место для передачи шифтовок ополчения чтоль?Цоя надо было слушать =)
Шифровка - это когда Бертрам Вустер шлёт Дэлии Трэверс телеграмму о невозможности возвращения серебряной коровы.
это не поможет. С помощью лазерного луча можно снимать звух со стекол. А видео заюзать для этого никогда не получится нормально, слишком низкая точность
Там в первой строчке ещё и Микрософт с Адобе ..."Researchers at MIT, Microsoft, and Adobe have developed an algorithm ... "
> MicrosoftКак же без них-то ...
> Как же без них-то ...Ну так все правильно: проприерасы и лохи-подстилки из универов, которых проприерасы окучивают.
> Массачусетского технологического института Microsoft3 раза перечитал, думал мс мит купил, поставьте запятую пожалуйста, глаза режет.
> 3 раза перечитал, думал мс мит купил, поставьте запятую пожалуйста, глаза режет.MS не купил, но пасется, рассматривая всяких MIT и Berkeley в качестве бесплатной кормовой базы. Достаточно посмотреть на пермиссивные лицензии одноименных универов.
Мне сразу вспомнился фильм "На крючке". Там тоже искусственный интеллект распознавал речь по вибрации.
На 1:23 http://kinogo.net/1082-na-kryuchke-2008.html
не исключено, что они решили заняться этим исследованием как раз после просмотра фильма
Можно ли скачать алгоритм?
После добровольного пожертвования голым и голодным разработчикам.
1 кадр / 2 часа = 60 кадров(1 сек)/120 часов ?
1 минута - 300 дней. мда...
300дней поделить на 2000 нод кластера - окажется что за 3/20 дня все будет готово...
Наши подбную технологию умудрились ещё в 30-е в посольство СШП внедрить...
> Наши подбную технологию умудрились ещё в 30-е в посольство СШП внедрить...Там скорее всего было все проще, если вы про подслушивание по вибрации стекол.
> Наши подбную технологию умудрились ещё в 30-е в посольство CШП"…В Дeнь нeзавиcимocти, 4 июля 1945 гoда, aмepиканcкий пoсол в Рoссии Авeрeлл Гaрриман пoлучил в пoдaрок от сoвeтcких пиoнeров деревянное панно с изображением орла. Панно повесили в рабочем кабинете посла. ... из дома напротив на окно кабинета направлялся невидимый луч, а мембрана, колебавшаяся в такт речи, отражала его назад, и он записывался на специальное устройство."
Изобретатель с русской фамилией Лев Термен. :)
Вообще то лазером там не пахло (не было их ещё). Работало всё на том же принципе, что и терменвокс. Америкосы потом ещё долго гадали как это thingh их слушала.
> Вообще то лазером там не пахлоА где он про лазеры что-то сказал?
> но по мере усовершенствования техники разработчики смогли обеспечить разбор речи и
> при съёмке обычной DSLR-камерой, выдающей 60 кадров в секунду.Какой-то пиндеж (от авторов или в переводе). При частоте дискретизации в 60 герц ничего кроме бубнения вытащить невозможно. Ну и угадать пол и интонации еще может быть ...
Ну, во-первых, 60 кадров/сек -- это не частота дискретизации, поскольку разные пиксели в разные моменты времени засвечиваются. Во-вторых, на самом деле при 60 fps: "it may still be good enough to identify the gender of a speaker in a room; the number of speakers; and even, given accurate enough information about the acoustic properties of speakers’ voices, their identities." Впрочем исследование не сводилось к 60 fps, 60 fps, видимо, это тот минимум, на котором хоть какую-то информацию удаётся извлечь.
>Ну, во-первых, 60 кадров/сек -- это не частота дискретизации, поскольку разные пиксели в разные моменты времени засвечиваются.Со светочувствительной матрицы они считываются тоже в разное время или как?
>Впрочем исследование не сводилось к 60 fps, 60 fps, видимо, это тот минимум, на котором хоть какую-то информацию удаётся извлечь.Ну про "хоть какую-то" инфу я и не спорю.
>> Ну, во-первых, 60 кадров/сек -- это не частота дискретизации, поскольку разные пиксели
>> в разные моменты времени засвечиваются.
> Со светочувствительной матрицы они считываются тоже в разное время или как?Эмм... Если более подробно этот вопрос рассматривать, то следует признать, что матрица постоянно "засвечена", то есть на неё постоянно проецируется картинка. Но пиксели читаются не одновременно. Стандартный алгоритм, который использует прошивка -- сверху-вниз, слева-направо. И чем дальше пиксели друг от друга в этой последовательности, тем больше времени проходит между их фиксацией в кадре.
Где-то в инете физики показывали разработку, которая позволяет камерой, снимающей 25 кадров в секунду, снимать реально 100 кадров в секунду, правда путём уменьшения разрешения в 2 раза по каждой оси. Там они меняли алгоритм и считывали с матрицы сначала нечётные пиксели нечётных строк, потом чётные пиксели нечётных строк, потом нечётные пиксели чётных строк, и финально чётные пиксели чётных строк. Если все эти прочитанные пиксели уложить в единый кадр, то получается видео как видео. А если из пикселей полученных на каждом проходе формировать отдельный кадр пониженного разрешения, то fps возрастает в четыре раза и это *действительно* позволяет разглядеть новые детали произошедшего. В демонстрационном видео, например, это позволяло понять что "вот эта размазанная полоса поперёк кадра, на самом-то деле пролетевшая пуля, причём пролетевшая слева-направо".
Поэтому я не очень удивляюсь тому, что разглядывая разные пиксели и учитывая промежуток времени прошедший между их фиксацией в кадре, можно извлекать дополнительную информацию.
опять в открытые двери с грохотом вламываются…
1800 год. Группа исследователей разработала технику воссоздания написания письма по скрипу пера о бумагу :)Шутка конечно, но новость интересная :)
Про лампочку с микрофоном читал давно, но это качественно новый уровень :)
>Про лампочку с микрофоном читал давно, но это качественно новый уровень :)Только когда ширпотребовские вебкамеры смогут выдавать 60 fps даже при хреновом освещении. Интересно кстати когда? В десять лет уложатся, или таки в пятилетку?.. Как раз и технологию доработают. "Как страшно жить" (c)
> Только когда ширпотребовские вебкамеры смогут выдавать 60 fps даже при хреновом освещении.Или когда технологии распознавания речи шагнут дальше, и опередят по своим возможностям способности человеческого уха. Не факт, конечно, что они справятся с 25 fps, но... Но если глянуть с той точки зрения, что на 25 fps возможно читать по губам, то есть ненулевая вероятность, что в вибрациях кактуса заснятых на 25 fps тоже достаточно информации.
>Про лампочку с микрофоном читал давно,Что-то не могу поиском ничего найти. Можно в двух словах, или ссылку?
Блин как же я люблю этот сериал http://serial-online.biz/serial_watch/361-smotret-online-hod... про ходячих мертвецов. Смотрю каждую серию с великим удовольствием. Мое мнение, что это один из лучших сериалов за последние пять лет. Не знаю как Вам, но мне очень нравится и игра актеров и постановка. Жду Ваших комментов.