NECは25日、人間の感覚に近い音声・映像視聴を可能にする技術「能動的オブジェクト技術」の開発に着手したと発表、技術説明会を開催した。説明会はNEC 共通基盤ソフトウェア研究所の所長である中田登志之氏と、同研究所の部長・芹沢昌宏氏の2名により進められた。
この研究は、同社の音響処理技術・映像認識技術を組み合わせることにより、人の視聴覚機能が持つ「多数の音声や映像が混在する状態でも、注目した情報をより的確に認識できる感覚」の実現を目指したもの。この感覚を実現することにより、仮に相手が遠隔地にいても、あたかも近くにいるかのように感じることができる。また、従来の音声・映像により豊かな表現力を付加した、新しい遠隔コミュニケーション手段としての活用が考えられている。
今回実現した技術の内容としては(1)複数の人物が同時に発話している音声信号から、信号の独立性を分析することにより、それぞれの人物の音声を分離する技術(2)発話している映像から人物の顔領域を検出し、発話位置を推定することで、分離された音声信号と人物を対応付ける技術(3)注目したい人物を選択することで、その人物の音声を前後左右の自由な位置に配置する技術となっている。
|
|
NEC 共通基盤ソフトウェア研究所・所長の中田登志之氏
|
NEC 共通基盤ソフトウェア研究所・部長の芹沢昌宏氏
|
まずは中田氏より、映像や音響の圧縮技術や高品質化、音声認識・顔認識技術といった、NECにおけるさまざまな製品に共通する技術開発を行なっていると、同研究所での取り組みについて紹介された。
続いて芹沢氏より、具体的な技術説明が行なわれた。まず「臨場感」とは何か、どういったものに役立つのかについて紹介した。人間が「臨場感がある」と感じる場合、単純に「心地よい」ということだけではなく、「正確な情報の獲得」「没入感」が必要だと述べた。
この「臨場感」を構成する要素として大型テレビを例にとると、「大型」「高精細表示」「立体表示」といった環境を作る受動的な要素が不可欠だが、さらに人間がどのような行動をとるか、どうすれば自然に情報を獲得できるかという、能動的な要素について着目したという。受動的要素に能動的要素が加わることで「高臨場感」が得られると考えたそうだ。
|
|
臨場感の効果について
|
臨場感を構成する要素
|
そこで、新たなコミュニケーション手段に向けた1つの切り口として「音声・映像を人が認識する感覚に近づける能動的メディア処理技術」の研究開発に着手したという。この研究開発を進めている中で、人の視聴覚機能がもつ、多数の音声や映像が混在する状態でも注目した情報を正確に認識できる感覚である「カクテルパーティ効果」に注目したそうだ。
会議を例に挙げると、同じ現場内にいる場合はそれぞれの人の発言に注目できるが、テレビ電話などを使った遠隔地同士での会議の場合、1つの画面内で注視するものが多いため、聞く側の意識が散漫になりがちになってしまう。そこでこのカクテルパーティ効果を使おうというわけだが、このようなシチュエーションの場合、ある人・ある物に着目するためにはアシストが必要で、そのアシストとなる技術が「能動的オブジェクト処理」である。
|
|
カクテルパーティ効果について
|
カクテルパーティ効果の紹介ビデオも放映された
|
「能動的オブジェクト処理」とは、聞きたい相手の顔や声(オブジェクト)を的確に捉える快適な遠隔コミュニケーションが可能になるもので、複数の相手の顔や声を分離して自動記録ができるため、監視システムや議事録システムへの活用が可能になるそうだ。NECではこの技術がコミュニケーション、コンテンツ制作、端末、テレワークサービスなどの事業に貢献すると考えている。
次に、「能動的オブジェクト処理」についての具体的なデモが3つ紹介された。デモは参加者5名による会議のシーンで、最初に収録された状態のままのビデオが放映された。実際に視聴してみると、会議参加者それぞれが発言をしており、誰が何を言っているのかが聞き取りにくい状態だった。なお、デモの撮影時に使われた機材はビデオカメラが1台、28個の小型マイクを搭載したマイクアレーが1つ。
まず、具体的なデモの1つ目。5名それぞれの発言を音源分離したビデオが紹介された。音源分離は、複数の人物が同時に発話している音声信号から、信号の独立性を分析することにより、それぞれの人物の音声を分離する技術である。収録のままのビデオと比べると、音が全体的に広がったような、フラットな状態になり、聞きやすくなったのがわかる。
2つ目は音源分離と、映像から顔検出を行なう2つの技術を融合し、話者を自動的に認識・フォーカスし、話者の拡大画像を表示するという内容。音声も自動的に話者に注目しており、かなり聞き取りやすくなっていた。
3つ目は、任意で人物を選択できるという内容のビデオが放映された。途中、選択した人物が何をいっているのかは聞き取りにくかったが、遠隔地同士の会議というシチュエーションでも、話したい相手とピンポイントで会話ができるそうだ。
|
|
|
【動画】注目人物を任意で選択できる
|
音源分離についての技術的詳細
|
映像から顔検出し、発話位置を推定することで音と映像を対応させている
|
|
|
注目人物を指定し、拡大表示することもできる
|
デモの撮影時に使われたマイク。マイクは28個ついている
|
この技術の将来的な利用イメージとしては、次世代テレワークシステム、仮想視点コンサート、次世代放送におけるスポーツ中継などが挙げられている。すでに次世代オーディオコーデックの標準規格である「MPEG-SAOC」へ採択が決定しているが、現時点でのこの技術は荒削りなもので、さらなるブラッシュアップを必要としており、同研究所では2012年の実用化を目指している。
2008年9月30日(火)~10月4日(土)に幕張メッセで開催される「CEATEC JAPAN 2008」と、2008年11月11日(火)~13日(木)に東京国際フォーラムで開催される「C&Cユーザーフォーラム&iEXPO 2008」で同技術を見ることができるので、興味のある方はぜひ見に行ってみてはいかがだろうか。
|
|
将来の利用イメージ
|
今後の目標について
|
■URL
NEC
http://www.nec.co.jp/
CEATEC JAPAN 2008
http://www.ceatec.com/2008/ja/
( 小林 隆 )
2008/09/26 00:14
- ページの先頭へ-
|