URL: https://www.opennet.me/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID3
Нить номер: 97591
[ Назад ]

Исходное сообщение
"Представлена техника воссоздания речи по вибрации предметов ..."

Отправлено opennews , 08-Авг-14 13:27 
Группа исследователей из Массачусетского технологического института разработала (http://newsoffice.mit.edu/2014/algorithm-recovers-speech-fro...) технику (http://people.csail.mit.edu/mrub/VisualMic/) воссоздания речи на основе анализа вибрации предметов в видеозаписи. Для воссоздания речи достаточно записи с частотой 60 кадров в секунду и наличия в кадре легко вибрирующих предметов, таких как упаковка от чипсов, стакан воды и даже листья комнатных растений. Процесс анализа является достаточно ресурсоёмкой операцией и требует нескольких часов вычислений на современном персональном компьютере.


Техника воссоздания речи по вибрации предметов не нова и активно используется спецслужбами для организации подслушивания в помещениях по вибрации оконного стекла или предметов. Но до сих пор для воплощения данной техники требовались специализированные высокочувствительные устройства, такие как лазерные микрофоны. Новый метод позволяет обойтись обычной видеокамерой с разрешением порядка 700x400.  


Суть метода в том, что для того чтобы уловить колебания предмета в несколько микрометров, которые невозможно заметить через перемещение пикселей (изменение в 5/1000 пикселя), используется анализ изменения цвета отдельных пикселей граничных областей предметов. Камера не улавливает малые вибрации на уровне перемещения пикселей, но отражает их через аберрации цветового спектра. Изначально эксперименты проводились с использованием высокоскоростных камер, способных снимать с частотой 2-6 тысяч кадров в секунду, но по мере усовершенствования техники разработчики смогли обеспечить разбор речи и при съёмке обычной DSLR-камерой, выдающей 60 кадров в секунду.


<center><iframe width="640" height="360" src="//www.youtube.com/embed/FKXOucXB4a8?rel=0" frameborder="0" allowfullscreen></iframe></center>

URL: http://newsoffice.mit.edu/2014/algorithm-recovers-speech-fro...
Новость: http://www.opennet.me/opennews/art.shtml?num=40349


Содержание

Сообщения в этом обсуждении
"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено A.Stahl , 08-Авг-14 13:27 
Где можно заказать чугунные цветы вместо предательских живых?

"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено commiethebeastie , 08-Авг-14 13:29 
Бычий пузырь вместо стекла не забудь натянуть.

"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено Аноним , 08-Авг-14 15:07 
Он еще хуже вибрировать будет.

"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено Pahanivo , 08-Авг-14 19:18 
> Он еще хуже вибрировать будет.

ХМ. Думаю данную технологию легко заглушить ультразвуком не сильно большой мощности ...


"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено Anonym0uz , 09-Авг-14 01:20 
Всё ещё проще. Под глушилки на оконные стёкла — используют маленькие вибры, мобилки для этого подходят, особенно старые. А фонящие предметы при переговорах предусмотрительно убирают, закрывают тканью.

"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено Pahanivo , 09-Авг-14 12:23 
Я конечно не специалист по анализу гармонических колебаний, но если вчитаться то получается какая-то хрень ... Камера с частотой кадров 60fps, т.е. частота съема информации (частота дискретизации) 60 Hz, но у самых низких голосов (типа оперный бас) нижняя граница голосового диапазона порядка 80 Hz, а у среднего человека 100-200 Hz минимум. Как вообще можно что-то распознать, если частота дискретизации в два и более раз меньше чем частоты, которые пытаются анализировать????? Или я что-то путаю?

"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено Аноним , 09-Авг-14 15:53 
> Камера с частотой кадров 60fps, т.е. частота
> съема информации (частота дискретизации) 60 Hz, но у самых низких голосов
> (типа оперный бас) нижняя граница голосового диапазона порядка 80 Hz, а
> у среднего человека 100-200 Hz минимум. Как вообще можно что-то распознать,
> если частота дискретизации в два и более раз меньше чем частоты,
> которые пытаются анализировать????? Или я что-то путаю?

Ну, если переводчики не переврали, то идея как-раз в том, что анализируется не весь кадр сразу, а построчно, с учетом особенностей работы современных сенсоров камеры. При съемке на кинопленку такой фокус, естественно, не пройдет. А на современных работает за счет того, что разные строки сканируются в разное время, т.е. кадр несет в себе информацию не об единовременном состоянии колеблющейся поверхности, а о процессе колебаний на протяжении времени сканирования. Таким образом, частоту кадров нужно умножить как минимум на 0.1 количества строк, т.е. 60*40=2400 Гц, что уже приемлемо для снятия более-менее разборчивой речи. Естественно, о передаче тембра голоса речь не идет ;)


"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено Pahanivo , 11-Авг-14 07:33 
> Ну, если переводчики не переврали, то идея как-раз в том, что анализируется
> не весь кадр сразу, а построчно, с учетом особенностей работы современных
> сенсоров камеры. При съемке на кинопленку такой фокус, естественно, не пройдет.
> А на современных работает за счет того, что разные строки сканируются
> в разное время, т.е. кадр несет в себе информацию не об
> единовременном состоянии колеблющейся поверхности, а о процессе колебаний на протяжении
> времени сканирования. Таким образом, частоту кадров нужно умножить как минимум на
> 0.1 количества строк, т.е. 60*40=2400 Гц, что уже приемлемо для снятия
> более-менее разборчивой речи. Естественно, о передаче тембра голоса речь не идет
> ;)

Ну это пожалуй хоть какое-то логическое объяснение ..., но все равно progressive scan и т.д. и метод в жопе ))


"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено Аноним , 10-Авг-14 23:20 
> съема информации (частота дискретизации) 60 Hz, но у самых низких голосов
> (типа оперный бас) нижняя граница голосового диапазона порядка 80 Hz,

А там не надо весь спектр. Достаточно амплитуду колебаний под действием типичных звуков декодировать. В словах много меньше информации чем частота звука * 2. На этом принципе работают голосовые кодеки, передавая сильно меньше информации. Поэтому по вибрациям которые вызваны суммарной средней мощностью звукового сигнала вполне можно реконструировать типичные сочетания звуков и слова. А вот эти уже меняются медленно. Пока вы там каждую букву промямлите, камера на 60FPS несколько кадров как раз сделать и успеет. А дальше сдвиг поверхности "от произношения вот этого звука" уже не так сложно посчитать, видимо.

p.s. да, цифровые методы обработки еще не раз подложат вам сюрпризов. Это для вас "ничерта не разобрать". А для цифровых машин минимальное отличие в цвете например вполне достаточно для реконструкции картинки после некоей обработки. Вы их здорово недооцениваете...


"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено Pahanivo , 11-Авг-14 07:50 
>> съема информации (частота дискретизации) 60 Hz, но у самых низких голосов
>> (типа оперный бас) нижняя граница голосового диапазона порядка 80 Hz,
> А там не надо весь спектр. Достаточно амплитуду колебаний под действием типичных
> звуков декодировать. В словах много меньше информации чем частота звука *
> 2.

вот я и спрашиваю, как имея частоту съема (дискретизации) В ДВА И БОЛЕЕ РАЗ МЕНЬШЕ чем минимальная частота АНАЛИЗИРУЕМОГО спектра (а не ширина спектра) можно вообще говорить о каких то амплитудах, когда вы этом случае даже не известно сколько циклов колебания прошло между съемами ))


> На этом принципе работают голосовые кодеки, передавая сильно меньше информации.

кодеки работают совершенно по другому принципу и решают совершенно другие задачи - хотя бы тот факт, что у него, кодека, на входе "чистый" сигнал. Он лишь режет не существенные гармоники и пытается уложить информацию в заданную полосу пропускания.

> p.s. да, цифровые методы обработки еще не раз подложат вам сюрпризов. Это
> для вас "ничерта не разобрать". А для цифровых машин минимальное отличие
> в цвете например вполне достаточно для реконструкции картинки после некоей обработки.
> Вы их здорово недооцениваете...

Цифровая машина - это датчики (звуковые, световые (матрицы и т.д.), шины данных, ЦПУ (контроллеры) и самое главное и пожалуй решающие - это алгоритм (программа) т.е. логика программиста, основанная на физических законах. Вот я и пытаюсь рассмотреть данную проблему с точки зрения физики процесса, а не как какую-то неебически волшебную уйню черного цвета. Выше комрад предположил, что хитрость в построчном сканировании, с чем я согласен так как с точки зрения опять же физики процесса это уже позволяет делать некий анализ.
А то что написано вами выше это алхимия мозга ...



"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено Аноним , 08-Авг-14 13:30 
Пользуй кактусы, Люк. У них листьев.

"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено A.Stahl , 08-Авг-14 13:34 
Трезвая мысль. Можно убить сразу двух зайцев если найти ещё и вкусные кактусы:)

"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено Led , 09-Авг-14 02:53 
> Трезвая мысль. Можно убить сразу двух зайцев если найти ещё и вкусные кактусы:)

FAIL: "убитые зайцы" в кадре будут вибрировать не хуже фикуса.


"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено Центаврианин , 09-Авг-14 14:09 
> Можно убить сразу двух зайцев если найти ещё и вкусные кактусы:)

Трёх зайцев. Кактусы можно использовать ещё и для поглащения радиации и электромагнитного излучения.
(у нас на работе парачка пользователей так защищают себя от радиации)


"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено Аноним , 08-Авг-14 13:36 
хм, думал его убили, оказывается его кактусы захватили

"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено ASIC , 08-Авг-14 13:44 
Прочитав коментарий ну просто настоение поднимаеся давно я така не смеялся ребята, особенно коментарий про "чугунные цветы" ну просто плакал. вот такой вот мотиватор. Спасибо.

"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено A.Stahl , 08-Авг-14 14:05 
Приходи к нам на ЛОР -- гипервентиляция лёгких тебе обеспечена:)

"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено Аноним , 08-Авг-14 15:20 
Облизывать модераторов это так весело.

"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено A.Stahl , 08-Авг-14 15:49 
Вот не надо сарказма. В любой бочке с мёдом есть ложка дёгтя. Вон на хабре ещё и друг друга облизывать надо...

"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено жестькаконаесть , 10-Авг-14 23:04 
> Вон на хабре ещё и друг друга облизывать надо...

Ахтунг! Хабрасеки!


"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено Аноним , 10-Авг-14 23:23 
> Вот не надо сарказма. В любой бочке с мёдом есть ложка дёгтя.

Может лор и бочка, но уж точно не с медом. Ресурс на домене 3-го уровня - понятно что из себя представляет. Ну и модераторы под стать - модерастят очень избирательно, по своему вкусу. В результате полон ресурс забаненых аккаунтов, а обстановка все-равно полная помойка.


"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено Аноним , 08-Авг-14 15:21 
Параноики плакали, кололись, но продолжали есть невибрирующие кактусы.

"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено Andrey Mitrofanov , 08-Авг-14 13:56 
> Где можно заказать чугунные цветы вместо предательских живых?

Благодарные наследники в оградке вокруг холмика установят.


"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено YetAnotherOnanym , 08-Авг-14 15:06 
> Где можно заказать чугунные цветы вместо предательских живых?

В Донецке из рельсов выращивают чюгуниевые деревья. Попробуй там заказать.


"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено A.Stahl , 08-Авг-14 15:53 
На брезентовом поле?

"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено YetAnotherOnanym , 08-Авг-14 17:18 
Ну, можно по нему огуречную плеть пустить. На чорном чюгунии - серебристо-белый люминь.

"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено Аноним , 08-Авг-14 21:14 
У нас тут место для передачи шифтовок ополчения чтоль?

"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено anonymous , 08-Авг-14 23:34 
> У нас тут место для передачи шифтовок ополчения чтоль?

Цоя надо было слушать =)


"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено YetAnotherOnanym , 09-Авг-14 15:38 
Шифровка - это когда Бертрам Вустер шлёт Дэлии Трэверс телеграмму о невозможности возвращения серебряной коровы.

"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено Аноним , 08-Авг-14 17:02 
это не поможет. С помощью лазерного луча можно снимать звух со стекол. А видео заюзать для этого никогда не получится нормально, слишком низкая точность

"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено AndrewR , 08-Авг-14 13:34 
Там в  первой  строчке ещё  и  Микрософт с  Адобе ..."Researchers at MIT, Microsoft, and Adobe have developed an algorithm  ... "

"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено Аноним , 08-Авг-14 13:43 
> Microsoft

Как же без них-то ...


"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено Аноним , 08-Авг-14 16:06 
> Как же без них-то ...

Ну так все правильно: проприерасы и лохи-подстилки из универов, которых проприерасы окучивают.


"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено cmp , 08-Авг-14 15:29 
> Массачусетского технологического института Microsoft

3 раза перечитал, думал мс мит купил, поставьте запятую пожалуйста, глаза режет.


"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено Аноним , 08-Авг-14 16:07 
> 3 раза перечитал, думал мс мит купил, поставьте запятую пожалуйста, глаза режет.

MS не купил, но пасется, рассматривая всяких MIT и Berkeley в качестве бесплатной кормовой базы. Достаточно посмотреть на пермиссивные лицензии одноименных универов.



"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено Аноним , 08-Авг-14 13:45 
Мне сразу вспомнился фильм "На крючке". Там тоже искусственный интеллект распознавал речь по вибрации.

"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено Аноним , 08-Авг-14 13:48 
На 1:23 http://kinogo.net/1082-na-kryuchke-2008.html

"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено Нанобот , 08-Авг-14 14:24 
не исключено, что они решили заняться этим исследованием как раз после просмотра фильма

"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено Rfhnbyrfrfhnbyrf , 08-Авг-14 14:43 
Можно ли скачать алгоритм?

"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено Аноним , 08-Авг-14 15:01 
После добровольного пожертвования голым и голодным разработчикам.

"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено Аноним , 08-Авг-14 15:02 
1 кадр / 2 часа = 60 кадров(1 сек)/120 часов ?
1 минута - 300 дней. мда...

"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено анонимный , 08-Авг-14 15:38 
300дней поделить на 2000 нод кластера - окажется что за 3/20 дня все будет готово...

"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено Аноним , 08-Авг-14 15:48 
Наши подбную технологию умудрились ещё в 30-е в посольство СШП внедрить...

"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено Аноним , 08-Авг-14 16:09 
> Наши подбную технологию умудрились ещё в 30-е в посольство СШП внедрить...

Там скорее всего было все проще, если вы про подслушивание по вибрации стекол.


"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено Demo , 08-Авг-14 17:46 
> Наши подбную технологию умудрились ещё в 30-е в посольство  CШП

"…В Дeнь нeзавиcимocти, 4 июля 1945 гoда, aмepиканcкий пoсол в Рoссии Авeрeлл Гaрриман пoлучил в пoдaрок от сoвeтcких пиoнeров деревянное панно с изображением орла. Панно повесили в рабочем кабинете посла. ... из дома напротив на окно кабинета направлялся невидимый луч, а мембрана, колебавшаяся в такт речи, отражала его назад, и он записывался на специальное устройство."

Изобретатель с русской фамилией Лев Термен. :)


"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено fiziologus , 09-Авг-14 05:15 
Вообще то лазером там не пахло (не было их ещё). Работало всё на том же принципе, что и терменвокс. Америкосы потом ещё долго гадали как это thingh их слушала.

"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено Аноним , 10-Авг-14 23:25 
> Вообще то лазером там не пахло

А где он про лазеры что-то сказал?


"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено Фома Неберущий. , 08-Авг-14 20:54 
> но по мере усовершенствования техники разработчики смогли обеспечить разбор речи и
> при съёмке обычной DSLR-камерой, выдающей 60 кадров в секунду.

Какой-то пиндеж (от авторов или в переводе).  При частоте дискретизации в 60 герц ничего кроме бубнения вытащить невозможно. Ну и угадать пол и интонации еще может быть ...


"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено Ordu , 08-Авг-14 22:17 
Ну, во-первых, 60 кадров/сек -- это не частота дискретизации, поскольку разные пиксели в разные моменты времени засвечиваются. Во-вторых, на самом деле при 60 fps: "it may still be good enough to identify the gender of a speaker in a room; the number of speakers; and even, given accurate enough information about the acoustic properties of speakers’ voices, their identities." Впрочем исследование не сводилось к 60 fps, 60 fps, видимо, это тот минимум, на котором хоть какую-то информацию удаётся извлечь.

"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено Фома Неберущий. , 09-Авг-14 00:17 
>Ну, во-первых, 60 кадров/сек -- это не частота дискретизации, поскольку разные пиксели в разные моменты времени засвечиваются.

Со светочувствительной матрицы они считываются тоже в разное время или как?
>Впрочем исследование не сводилось к 60 fps, 60 fps, видимо, это тот минимум, на котором хоть какую-то информацию удаётся извлечь.

Ну про "хоть какую-то" инфу я и не спорю.


"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено Ordu , 09-Авг-14 01:31 
>> Ну, во-первых, 60 кадров/сек -- это не частота дискретизации, поскольку разные пиксели
>> в разные моменты времени засвечиваются.
> Со светочувствительной матрицы они считываются тоже в разное время или как?

Эмм... Если более подробно этот вопрос рассматривать, то следует признать, что матрица постоянно "засвечена", то есть на неё постоянно проецируется картинка. Но пиксели читаются не одновременно. Стандартный алгоритм, который использует прошивка -- сверху-вниз, слева-направо. И чем дальше пиксели друг от друга в этой последовательности, тем больше времени проходит между их фиксацией в кадре.

Где-то в инете физики показывали разработку, которая позволяет камерой, снимающей 25 кадров в секунду, снимать реально 100 кадров в секунду, правда путём уменьшения разрешения в 2 раза по каждой оси. Там они меняли алгоритм и считывали с матрицы сначала нечётные пиксели нечётных строк, потом чётные пиксели нечётных строк, потом нечётные пиксели чётных строк, и финально чётные пиксели чётных строк. Если все эти прочитанные пиксели уложить в единый кадр, то получается видео как видео. А если из пикселей полученных на каждом проходе формировать отдельный кадр пониженного разрешения, то fps возрастает в четыре раза и это *действительно* позволяет разглядеть новые детали произошедшего. В демонстрационном видео, например, это позволяло понять что "вот эта размазанная полоса поперёк кадра, на самом-то деле пролетевшая пуля, причём пролетевшая слева-направо".

Поэтому я не очень удивляюсь тому, что разглядывая разные пиксели и учитывая промежуток времени прошедший между их фиксацией в кадре, можно извлекать дополнительную информацию.


"Представлена техника воссоздания речи по вибрации..."
Отправлено arisu , 09-Авг-14 20:31 
опять в открытые двери с грохотом вламываются…

"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено StainlessRat , 10-Авг-14 15:09 
1800 год. Группа исследователей разработала технику воссоздания написания письма по скрипу пера о бумагу :)

Шутка конечно, но новость интересная :)
Про лампочку с микрофоном читал давно, но это качественно новый уровень :)


"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено Anonizmus , 11-Авг-14 02:49 
>Про лампочку с микрофоном читал давно, но это качественно новый уровень :)

Только когда ширпотребовские вебкамеры смогут выдавать 60 fps даже при хреновом освещении. Интересно кстати когда? В десять лет уложатся, или таки в пятилетку?.. Как раз и технологию доработают. "Как страшно жить" (c)


"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено Ordu , 11-Авг-14 13:35 
> Только когда ширпотребовские вебкамеры смогут выдавать 60 fps даже при хреновом освещении.

Или когда технологии распознавания речи шагнут дальше, и опередят по своим возможностям способности человеческого уха. Не факт, конечно, что они справятся с 25 fps, но... Но если глянуть с той точки зрения, что на 25 fps возможно читать по губам, то есть ненулевая вероятность, что в вибрациях кактуса заснятых на 25 fps тоже достаточно информации.


"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено онаним , 19-Авг-14 21:42 
>Про лампочку с микрофоном читал давно,

Что-то не могу поиском ничего найти. Можно в двух словах, или ссылку?


"Представлена техника воссоздания речи по вибрации предметов ..."
Отправлено Александр , 28-Окт-14 13:48 
Блин как же я люблю этот сериал http://serial-online.biz/serial_watch/361-smotret-online-hod... про ходячих мертвецов. Смотрю каждую серию с великим удовольствием. Мое мнение, что это один из лучших сериалов за последние пять лет. Не знаю как Вам, но мне очень нравится и игра актеров и постановка. Жду Ваших комментов.