大阪のロボットラボラトリーは9月26日、「音声認識技術を利用したコミュニケーションインターフェース」をテーマに、株式会社アドバンスト・メディア 取締役開発本部長 藤田泰彦氏を講師に招き、トークセッションを開催した。
ロボットラボラトリーは、2004年に大阪市が次世代ロボットテクノロジー(RT)産業創出のために開設した。大阪の産業競争力を高め、経済を活性化するため、大阪のもつ都市基盤や技術力などの潜在力をいかし、内外からの活発な投資の促進を図るとともに、次代を担う成長産業分野の育成・振興に取り組むことを目的に、ロボット関連分野の市場の創出をめざしている。
ロボットビジネスの最新情報発信基地として、毎月一度、ロボラボトークセッション開催している。
|
|
株式会社アドバンスト・メディア 取締役開発本部長 藤田泰彦氏
|
ロボットラボラトリーリーダー/ビジネスプロデューサーの石黒周氏
|
講演に先駆けて、ロボットラボラトリーリーダー/ビジネスプロデューサーの石黒周氏が、今回のテーマについて述べた。
「ロボットラボラトリーが考える「次世代ロボット」とは、ヒューマノイドロボットのようなハードウェアとしてロボットのカタチをしているものだけを指しているわけではない。人と協調し、あるいは人に代わって何かを提供するシステムを総称して「次世代ロボット」と呼んでいる」と石黒氏は言う。
「次世代ロボット」を頭脳と感覚をもった新しい機械と捉えた時、ビジネスチャンスは、人間にしかできないとされている顧客とのインタラクションにある。
現在のテクノロジーでは、顧客がコンピュータの画面上をマウスでクリックして、企業からサービス提供を受けているが、ロボットというのは企業が顧客に対して、能動的に働きかけるインターフェイスだという考え方ができる。
ロボットが、「あなたが欲しいモノはなんですか?」と顧客に質問する。それに対して、「僕はRTに関する情報が欲しい」と顧客が答える。つまり、人間が顧客にサービスするのと同じようにコミュニケーションが成り立つ。
それを実現するためには、音声認識が必須技術となる。現在の音声認識技術レベルを知り、今後、どのようにロボットビジネスに取り入れていくのか。それが、今回のテーマである。
● アドバンスト・メディアとは
株式会社アドバンスト・メディアは、1997年に設立した。設立当時は、音声認識エンジン等のライセンスを提供するビジネスを検討したが、当時は音声を使って市場を立ち上げる企業がなかったという。
そのままでは音声認識エンジンが市場に浸透せず、アドバンスト・メディアのビジネスも立ち上がっていかないため、単なるエンジンのライセンサーから脱却し、音声を使ったソリューションを提供する現在の業態に移行した。
「アドバンスト・メディアは、HCI(Human Communication Integration)をカンパニーミッションとしている。単に音声認識技術を売るのではなく、広い意味での対話を通じ、役に立つとか便利だとか、ありがたい、楽しいといった新しい付加価値を届けられる会社を目指している」という。
具体的には、「AmiVoice」という音声認識エンジンを核に、実用的な音声ソリューションを提供している。例えば、医療用語に対応した音声カルテ入力の「AmiVoice Ex」、日本人向け英語発音矯正ソフト「AmiVoice CALL」などさまざまなパッケージ製品の販売や、多少カスタマイズをして使用するミドルウェア的な製品を提供している。他にも受注開発や、展示会的なものも手がけている。
|
|
AmiVoiceの適用例
|
音声認識エンジン搭載のパッケージ製品群
|
現在、従業員が派遣を含めて150~160名。藤田氏は、「音声認識に取り組んでいる大企業もあるが、音声認識と音声ソリューションだけで、これだけの規模をもっている企業は世界的にみても多くはない。アドバンスト・メディアは、音声に関して特化した専門企業であると自負している」と語った。
● 音声認識エンジン「AmiVoice」6つの特長
藤田氏は、アドバンスト・メディアが提供する音声認識エンジン「AmiVoice」6大特徴を動画やデモンストレーションを交えて紹介した。
AmiVoiceを使うと、音声だけでコンピュータの画面を操作することができる。例えば、医療用カルテのように各項目に単語を記入する場合は、項目名称を言うとカーソルが入力欄に移動し、次に発言した単語が入力される。
ページ切り替えが必要な画面では、タブに書かれている項目名を言えば、ページが切り替わる。マウスとキーボードを使わずにデータ入力が可能である。
もちろん単語入力だけではなく、連続発話や自然な発話にも対応している。藤田氏が、やや早口で話す言葉をAmiVoiceがリアルタイムでモニター上に変換し表示していく。デモンストレーションを見て、その認識精度の高さとスピードに驚いた。
|
|
音声認識エンジン「AmiVoice」6つの特長
|
【動画】音声認識による医療用カルテの入力デモンストレーション
|
実際に医療現場で音声認識を使って業務を行なった場合、どの程度の認識精度が出ているのか慈恵医科大学の先生がある医療学会で報告した。
|
|
音声認識エンジンを利用した場合の認識率測定データ
|
キーボード入力時とAmiVoice使用時の作業効率比較
|
これによると、文字ベースで平均で97%、一番認識率が低い先生でも93.3%という高い認識率を示している。
このデータの興味深いところは、個々がキーボード入力をした時と、音声認識で入力した時の効率を比較している点である。実は、認識率の一番低いB先生は、5人の中ではタイピングスピードが一番遅かったという。
キーボードで例文を入力するのに、A先生が90秒位、B先生は、203秒掛かっていた。ところがAmiVoiceを使うと、若干逆転するくらい、B先生の方が入力スピードが上がっている。結果、B先生の入力効率は73.7%向上し、一番、AmiVoice導入の恩恵にあずかったことになる。
かつて大手メーカーが、音声認識ソフトを「音声ワープロです」「何でも対応可能です」とPRして、パソコンショップ等で安価に販売したことがある。
藤田氏は、「私は、現在の音声認識エンジンは、まだそこまで精度は上がっていないと思う。けれど、医療分野のような、専門用語の限られた語彙の中で話されるものに関しては、エンジンを作り込めばこれだけの精度が出せる」と自信を持って言う。
他にもいくつものデモンストレーションがあった。講演で使われた動画は、アドバンスト・メディアのサイトに公開されているので、興味を持った方はぜひ見てほしい。
多くの音声認識エンジンは、ディクテーション(連続音声認識:ユーザーの発声内容を一字一句テキストに書き下す技術)する場合、ユーザーによる事前の学習・登録が必要なことが多い。だがAmiVoice は、完全不特定話者対応が可能で、初めて使っても他社のエンジンに引けを取らない精度が十分出ているという。その他、AmiVoiceは環境雑音にも強い。
こうした特性を活かし、2006年7月、株式会社セガ・ミュージック・ネットワークスが業務用カラオケ機『CANDOONE(カンドーネ)』で開始した新サービス『声であそぶゲーム』に、アドバンスト・メディアの音声認識技術が採用された。
現在リリースされているのは、敵に書かれた文字や問題を声で回答して破壊するシューティングゲーム『ボイスウォーズ~声は地球を救う~』や、画面に表示されるたくさんの単語をいくつ覚えられるか? という『ココロホスピタル~本当の自分を知っていますか?~』。こちらは、記憶力を競うのではなく、記憶した言葉で、その人の性格を判断をするというゲームになっている。
「エコーがかかるカラオケボックスでの音声認識は難しい。声で遊ぶゲームは、音声の使い方としては新しく面白いと思う」と藤田氏は言う。
● ロボットへの実装例 キーワードスポッティング
昨年の愛・地球博でガイドロボットとして活躍した「アクトロイド」の会話や、文字認識合成、録音再生といった部分に関しては、アドバンスト・メディアの音声認識技術が使われている。
|
|
愛・地球博でガイドロボットとして活躍した「アクトロイド」
|
「アクトロイド」に実装された音声認識技術
|
「アクトロイド」のブースは、各入口3カ所にあり一般来場者へ会場案内などの接客をした。実際は、「トヨタ館はどこですか?」と言った目的地を聞く人はほとんどなく、アクトロイドに関して、名前や年齢を聞いたり、3サイズを聞いたりという内容が多かった。そういう設問に答えるシナリオをあらかじめ用意していたという。
アクトロイドは、キーワードスポッティングをベースにして対話を組んでいる。ロボットが人とコミュニケーションをとる場合、音声認識を掛けて全部テキストにし、構文解析して意味を理解して応答する、という正攻法のアプローチは、各ステップに必ず誤認識、誤理解が出てくる。結果的に応答精度を考えると、ハードルが高い上に実用化が難しい。
だが、目的を絞って会話をすると、キーワードが認識できれば返事ができる事例が、非常にたくさんある。
そこで、アクトロイドに限らず、キーワードスポッティングをベースにした一問一答型をベースにいろいろなソリューションを組んでいるという。
藤田氏は、キーワードスポッティングの例として、Microsoft Agentキャラクタのピーディを使って会話をするデモンストレーションを行なった。
藤田氏が、ピーディに「ピーディ、歳はいくつ?」と質問をした。すると、ピーディから「たぶん4歳」という回答が返ってくる。
続いて、「ピーディ、石黒さんに年齢を教えてあげて」や、「今日は大勢の人が来ているけど、ピーディって年齢は何歳?」に対しても、「たぶん4歳」と答える。このように発話者の言葉の中から、「年齢」、「いくつ?」、「何歳」といったキーワードだけを引いて、答えを返す。これがキーワード認識をベースにした一問一答型の解析である。
|
|
音声認識を使って、動物占いをする例。顧客情報が集めやすくなる
|
ワインのオンラインショッピングサイトでの音声認識活用例
|
次に、一問一答ベースと状態遷移型シナリオの組合せを使った、ワインのオンラインショッピングサイトのデモンストレーションをした。
藤田氏が、「フランス、ブルゴーニの赤、5,000円位まで」と条件を伝えると、ピーディが該当するワインを教えてくれる。「詳細情報を教えて?」と頼むと、ソムリエのようにワインの説明を始める。商品を購入したい時は「1本予約」と言えば、カートに商品が追加される。このように商品検索~注文決定~購入までのステップを、すべて音声で対応できる。
このような技術が、アクトロイドに搭載した音声認識のベースになった。具体的には、愛・地球博では一般来場者が対話するという点と、屋外で使うということで難しい問題がいくつかあったという。
例えば、マイクの問題。指向性のあるマイクを使って、50cm~1mのミドルレンジでの音声認識を可能にした。
ほかには雑音処理が必要で、現地の雑音を相当録音して適応処理をかけ、人間の話し言葉の音声だけを抽出するためのノイズ・エコーキャンセル技術を採用した。
また、お客さんの顔位置認識を使っていて、アクトロイドの視線の制御をやっているのが面白いという。
● 音声認識技術のロードマップ
|
音声認識技術のロードマップ
|
音声認識技術は、1960年頃に単語認識でスタートした。1991年頃、文法を統計化することで一般的にいうディテークションが、機能的には使えるようになった。
ところが、その後10年間くらいは、ごく一部のコマンドの認識で使われたことはあっても、本格的な実用化はできなかった。
現在、第三世代に入り、今回紹介したような不特定話者の音声認識対応、発話スピードやアクセントの対応、あるいはノイズ除去ができるようになり、幅広いマーケットに対して本格的な実装ができるエンジンになったという。
では、今後、音声認識技術は、どういう方向へ進んでいくのだろうか。
藤田氏は、「来年から音声認識エンジンの普及拡大、細かいテーマでやらなければならないこと一杯ある」という。
現在は、発話者がヘッドセットやマイクを使用しているが、今後はある程度距離がある会話にも対応していく必要があるので、ミドルレンジのマイクに対して、どう対応していくかが、大きな課題としてある。
もうひとつ、マルチモーダル・インターフェイスの対応がある。例えば、カメラと組み合わせて、複数の人がしゃべっている時に、誰が話しているのかを画像から判断するなど、発話のタイミングを口の動きから切り出してくるといったように、音声以外の情報を組み合わせて認識をかけるようになっていくのが、来年以降の第四世代だという。
そして第5世代は、音声認識と対話、あるいは意味理解、推論といったものが融合してくる。このあたりまでできてくると、かなりの分野で機械とコミュニケーションを取るというソリューションが可能になるであろう。
「そうした方向で、音声認識にかかわらず周辺技術を含めて取り組んでいきたいと思っている」と藤田氏は述べた。
● ロボットビジネスへ展開する上での課題
|
ZMPのnuvoはアメリカでも高い評価を受けている
|
藤田氏は、ロボットに音声認識技術を搭載した例として、ZMPの二足歩行ロボットnuvoを挙げた。
nuvoには、内部にWindows CEが乗るボードが入っている。将来、分散型の音声認識をするために、外部で音声認識を掛ける仕組みに拡張できるようにしてあるが、このバージョンは内部で音声認識をかけているという。
マイクは本体の左右二カ所についているが、実際は、各関節のモーターの音が非常にうるさくて、ロボットが動いている時は全く音声認識ができない。「単語認識をできるようにしてあるが、たぶんほとんど使っていないと思う」という。
そのかわりに人間の声がはいったかどうかだけを判定する仕組みをいれた。動いている最中に、人間の声が入ると止る。止まってから、コマンドを認識する、という形で、動くようになっている。
「こうしたタイプのロボットを研究する時の一番の課題は、キレイな音をどう取るか? これに尽きる」と藤田氏はいう。
特にロボット本体に関しては、本体駆動雑音の処理が難しい問題であるということを、nuvoのケースで実感したという。そのために、マイクの取付位置、性能、ノイズキャンセルの技術等を複合的に議論する必要がある。
「そして何よりも、そのロボットに何をさせるのか」が一番のポイントになると、藤田氏は強調した。
認識対象語をどう絞り込むか、自然発話への対応をどうするか? 不要語の処理等、問題点はいろいろあるが、それについては「ロボットを使って、どのようなサービスを提供するのか?」というのが、非常に大きなポイントになる。
ロボットを使用する目的がはっきりすると、それに応じた会話ロジック、会話エンジンを仕様に落とすことができる。「単に、ロボットで音声認識をしたい。けれど、何していいか判らない」という状態では、具体的な使い方も決まらないというのが正直なところだと藤田氏はいった。
その他の点では、こういうタイプのロボットは、マニュアルを見てから使うものではないということがある。いかにマニュアルレスで使えるようにするか。また、一人の人が長く使うものであれば、使用していく上で使い方が判るようなチュートリアル的な機能をどのように組み込むかという課題がある。
石黒氏から、藤田氏に「アドバンスト・メディアとしては、ロボットベンチャーとどういう連携のスタイルが考えられるのか」という質問があった。それにたいして藤田氏は、「イニシャルの開発費を資金調達をしていただけると、動けます。また、ビジネスモデル、ビジネスプランを提示していただいて、それに関して我々が、そのビジネスに関しては持ち出しであっても、取り組む価値があると判断できれば、一般的な受託をやるような形でなくても、取り組めると思う」と、語った。
最後に石黒氏がコメントをした。
「講演の中でデモンストレーションした音声技術の多くは、別の手段で実現が可能である。音声認識入力でなくても、キーボード入力でも構わない。けれど、消費者に広く受け入れてもらおうとした場合、やはりキーボードは苦手だという層は多い。音声認識技術を使うことで、ハードルを低くしていくことが可能となる。
技術的な問題は、本日の藤田氏のお話のようにいろいろあるが、それぞれの技術が、今後どのように進化していくのか? 2011年にどこまで技術が進歩するのか? という期待が本当に大きい」と石黒氏は述べた。
■URL
ロボットラボラトリー
http://www.robo-labo.jp/
アドバンスト・メディア
http://www.advanced-media.co.jp/
■ 関連記事
・ ロボラボトークセッションレポート(2006/09/08)
( 三月兎 )
2006/10/13 00:38
- ページの先頭へ-
|