国立情報学研究所は7月3日(木)、平成20年度市民講座「未来へつながる情報学」の第2回「画像情報とマシンビジョン~ロボットが世界を見て理解するために必要となる技術とは?~」を、東京都一ツ橋の学術総合センターで開催した。
講師は、同研究所所属のコンテンツ科学研究系教授の杉本晃宏氏だ。そこで解説された内容を紹介する。なお、プレゼン画像に関しては、国立情報学研究所の同講座の公式サイト内で無料配布されているので、こちらをダウンロードしてぜひ見ていただきたい。また、当日の様子のムービー画像も同サイトにはアップされているので、興味のある方はぜひ見てみよう。
国立情報学研究所では、毎年無料の市民講座を開催している。平成15年度(2002年)にスタートしてから今年で6年目となり、来年2月までほぼ毎月1回ペースで全8回開催を予定している。また、杉本氏についてだが、コンピュータビジョン、ヒューマン・コンピュータ・インタラクション、アルゴリズム、類似画像検索を専門分野としている。2006年から同研究所の教授となり、同時に総合研究大学院大学の教授も併任している。
最新の研究課題は、日常生活環境において、人と自然なコミュニケーションを行なうロボットを実現するのに必要な技術としての、「カメラを用いた人の行動の解析や理解」だ。今回の講座では、「ロボットの眼に必要な機能の例」「人間の視覚」「3次元形状復元技術」「人物追跡技術」の4項目について、解説がなされた。
|
|
会社帰りに足を運べる時間帯に開催されたこともあり、かなりの受講者が集まった
|
国立情報学研究所・コンテンツ科学研究系教授の杉本晃宏氏
|
● ロボットの眼に必要な機能の例
「ロボットの眼に必要な機能の例」では、カメラの付いていないロボットはない(ホビー用途などの一部は除く)ということで、代表として2台のロボットを紹介。産業用として、ファナック製の箱詰め用途のロボットが取り上げられ、カメラ(映像)が作業対象物の位置決め(物体の3次元形状の計測)として使用されていることが解説された。
またサービス用としては、埼玉大学久野研究室で開発された解説ロボット(2007年の大原美術館での実証実験で用いられた)を代表としてピックアップ。人の位置や動きの確認用(主に人を対象とした追跡技術)に、カメラが搭載されているとした。高機能型のロボットの多くにはカメラが搭載され、何らかの形で映像情報が使われているというわけだ。
● 人間の視覚
続いて「人間の視覚」では、人の視覚の機能面の解説からスタート。人の視覚は可視光を物理的入力とした感覚で、エネルギーやスペクトルを明るさや色に変換する仕組みであること、その関係が非線形で文脈依存であることが特徴である。また、脳の画像処理の問題もあるわけだが、とてもだまされやすいといことを強調していた。その例として、様々なタイプの錯視を実際に紹介し、人の眼の弱点を聴取者にアピールした。
そうした人の眼の構造や弱点などを踏まえた上で、ロボットの目を実現するためのポイントの解説に移行。ロボットの目の実現(視覚知能の計算機上での実現)とは、3次元シーンの認識・理解、つまりは画像から外界の3次元構造を推定することである。風景画像などからそのシーンの理解を得るためには、複数の手がかりを利用するという。
遠景のかすみ(遠隔地のものほど大気でかすんで見える)、遠景の縮小(遠くに行くほど景色が1点に収縮していくパースペクティブがかかる)、一様パターンの勾配(ビルの窓ガラスの並びなど一定パターンにおける模様の見え方の変化具合)、建物の重なり(奥の建物は手前の建物に隠される)、像の大きさ(クルマのようなほぼ同じサイズのもので比較し、小さく見えるものほど基本的に遠いという法則)などがそうだ。
風景画像などからそのシーンの理解を得ることの難しさとしては、まず3次元から2次元への投影が持つ根本的なものがある。3次元空間から2次元平面(画像)へと、次元がひとつ減ることからくる、「情報の欠如」が大きい。また、その中でも問題となるのが、手前の建物によって隠されてしまうために奥の建物の外観のすべてを把握できないといった、「隠れ(オクルージョン)」の問題もある。
さらに画像に関しては「見えの多様性」という問題もある。対象物の形状や表面特性の違い、見る(カメラの)位置や向きの違い、日照量(時間帯)の違いや照明の種類などによっても見え方が変化することだ。さらに、それらの処理を行なう際にどれだけかかるかという、「処理の実時間性」の問題もある。いくらすばらしい結果を得られるとしても、時間がかかりすぎていたのでは意味がないというわけだ。
また、投影の数理モデルについての解説もされた。3次元の物体(景色)を2次元に投影するための非常に簡単な手段として、ピンホールカメラからまず紹介。透視投影なども紹介されたが、3次元から2次元への非線形な投影は難しい、ということが結論であった。
● 3次元形状復元技術
3番目の項目の「3次元形状復元技術」は、3次元のものを撮影した2次元画像から、いかに3次元を再現できるか、という内容だ。最初に技術的な課題として、カメラの特性と配置、特徴の検出、特徴の対応付け、オクルージョンの4点が挙げられた。
立体的に物の形状や位置などをとらえるには、やはり単体のカメラでは難しいため、両眼で立体視している人にならって、2台のカメラでの左右での見え方の違いを利用することが必要だという。2台のカメラがあれば、三角測量の原理に基づいて、奥行きを推定できるというわけだ。3次元上の1点の情報を復元するには、左カメラの画像と右カメラの画像の両方の視線が交差する点を見つけ出すことで行なう。
ただし対応点の探索は、全画像を調べていたのでは時間がかかってしまうので、どちらかの点を基準にし、反対側の点を探索する形だ。
仮に左側を基準とすると、左画像の1点に対応する右画像の点は、右カメラに写る左カメラの視線上のどこかにあるということになる。これによって、右画像上に写る直線を調べるだけでよくなり、時間を大幅に節約できるというわけだ。
ただし、これは左右どちらのカメラからも見えているという条件で、実際には片側からしか見えない場合も多い。見えている部分のみの点集合として復元され(見えてない部分は復元できないので2.5次元の復元とよばれている)、点集合から面パッチを作成し、面に模様を貼り付けて可視化するというわけである。
また、3台以上のカメラを使った立体物の形状復元法についても紹介された。例では6台のカメラを使用し、各カメラでの画像撮影を行なってシルエットを切り出し、情報統合による対象物の存在可能範囲の限定を行なう。そして最後に表面の生成と模様の貼り付けを行なうことで、立体物の形状復元が完了というわけだ。
これらは、「視体積交差法」と呼ばれている。イメージ的には、SFアクション映画「マトリックス」で有名になった、俳優を120台のスチールカメラで写し、劇中では止まった時間の中で360度周囲をグルリと回ってみせる撮影方法「ヴァーチャル・シネマトグラフィ」(バレットタイム、マシンガン撮影などとも呼ばれる)も、その一種といえるだろう。カーネギーメロン大学での研究例として、49台のカメラ(処理には18台のPCを使用)を設置した撮影スタジオと復元例が紹介された。
● 人物追跡技術
最後は「人物追跡技術」について。こちらも、最初に技術的課題が挙げられた。環境の複雑さや変化、人数の増減や動きの変化、影の影響、不十分な解像度、そしてオクルージョンである。
最初に紹介された手法が「背景差分法」だ。アングルが固定され、背景も変化がない屋内の定点カメラなどに使用できる手法である。あらかじめ背景画像を取り込んでおき、人が画面内を通ると、当然人のところだけ背景が隠れるので映像情報が変化することを利用した仕組みだ。
差分画像として人の姿だけを取り出せるので、結果として人が通ったことを確認することができるのである。屋外で使おうとする場合、例えば木などが映り込むような背景だと、風で葉が揺れたりして変化してしまうので、対応が難しいといった点が課題だ。
そして現在研究中の技術が、多人数のいる環境での追跡を目的とした手法だ。各画像から抽出した特徴点の微小な動きから移動軌跡を導出し、移動軌跡をその振る舞いに基づいて分類するという仕組みである。
また、複数カメラを用いた追跡手法についても紹介された。確率的枠組みに基づく時系列フィルタの利用というもので、顔検出器によるもっともらしさの評価を行なう仕組みだ。3次元的に人物頭部の位置と向きを追跡できる点が、特徴なのだそうである。
以上で4項目の解説はおしまいだが、最後にまとめとして、応用と本質的な問題の二つについても杉本氏は触れた。
応用に関しては、まず介護や災害救助などの場面で、屋内外での視覚誘導を挙げた。さらに、デジタルカメラや携帯電話のカメラの機能拡張や、自動車の駐車や運転支援、ゲームの入力インターフェイスなども検討しているそうだ。また、インターネットショッピングなどでの画像・映像の検索、建築物や彫刻などの有形文化遺産と、伝統芸能や匠の技といった無形文化遺産のデジタル化なども挙げていた。
本質的な問題に関しては「デジタル画像としての宿命」がそのひとつ。つまり、どれだけ高精細化しても回避不可能な「画素という最小単位」が存在することの問題だ。画素を最小単位とした理論構築の必要があるという。
また、当たり前の話なのだが、カメラが持つ「受動型センサとしての宿命」も挙げていた。カメラ単体では人間や環境への働きかけが困難なので、能動的な機能の追加や音声など、ほかの感覚センサーとの統合といったことも必要ということであった。
人の視覚はまだ解明されていない部分が多い。そのため、なおさらロボットに画像を認識させるという技術を開発することが、まだまだ大変であるということがよくわかる講座だった。その一方で、着実に研究も進んでいることも伺えた。ぜひ、外界を認識したり、人の顔を区別したりできるロボットに登場してもらいたいものである。
なお、国立情報学研究所の平成20年度の市民講座「未来へつながる情報学」では、このあと第3回「データ社会とアーカイブ~年金記録問題などに見られる情報管理の重要性とは?~」(講師:情報社会相関研究系助教 古賀崇氏)が8月25日(月)に開催される。第4回以降のスケジュールは以下の通りになっている。
●第4回:9月10日(水)
「データ社会とウェブ~膨大なデータから見えてくるウェブ社会の姿とは?~」(講師:コンテンツ科学研究系教授 大山敬三氏)
●第5回:10月7日(火)
「脳科学と情報学~脳の理解に結びつく脳科学情報のデータベースとは?~」(講師:コンテンツ科学研究系准教授 山地一禎氏)
●第6回:11月6日(木)
「化学と情報学~未来の創薬などに結びつく化学情報の体系化とは?~」(講師:情報学プリンシプル研究系准教授 佐藤寛子氏)
●第7回:2009年1月19日(月)
「言語情報とコンピュータ~人間の文法とコンピュータの文法とは何が違うのか?~」(講師:情報学プリンシプル研究系准教授 金沢誠氏)
●第8回:2009年2月18日(水)
「文化情報とコンピュータ~文化遺産を未来に継承するデジタル化の技術とは?~」(講師:国立情報学研究所名誉教授 小野欽司氏)
平成20年度は、今回リポートした第2回以外は、直接的にロボットに関連する講座はないのだが、Robot Watchの読者の方なら、興味を持つ講座がそれぞれいくつかあるのではないだろうか。
会場は東京・一ツ橋の学術総合センター、開催時刻は18時30分となっている。残業などがなければ、首都圏の方なら会社帰りに受講できる時間帯なので、興味のある方は申し込んでみて欲しい。講演終了後には、講師への質疑応答も用意されており、専門家と直接話をできる貴重なチャンスもある。毎回無料で受講できるので、ぜひ検討してみてほしい。
■URL
情報・システム研究機構 国立情報学研究所
http://www.nii.ac.jp/
平成20年度市民講座「未来へつながる情報学」
http://www.nii.ac.jp/shimin/
第2回配付資料PDF
http://www.nii.ac.jp/shimin/documents/H20/080703_2ndlec.pdf
( デイビー日高 )
2008/07/18 17:15
- ページの先頭へ-
|