コラム：通りすがりのロボットウォッチャーハッキリ話そうロボット君

記事検索

バックナンバー

【 2009/04/17 】

■	月刊ROBOTウォッチング～心機一転、MANOI企画設立! ［12:03］

【 2009/04/15 】

■	ノモケンの「素組でロボット」バンダイ 1/100スケール MG「RX-78-2 ガンダム Ver.2.0」(その2) ［14:24］

【 2009/04/09 】

■	ノモケンの「素組でロボット」バンダイ 1/100スケール MG「RX-78-2 ガンダム Ver.2.0」(その1) ［15:40］

【 2009/04/06 】

■	世界最小級の二足歩行ロボット「ROBO-Q」レビュー～全高3.4cmの超小型ロボットが自律動作する! ［14:09］

【 2009/04/03 】

■	石井英男のロボットキットレビューヴイストン「Beauto Balancer」～倒立振子制御を手軽に学べる工作キット［12:59］

【 2009/03/27 】

■	通りすがりのロボットウォッチャー男の憧れか? 女性型ロボット［01:19］

【 2009/03/24 】

■	「新型ASIMO」のフィギュアが登場! ～フィギュアで実感、ASIMOの進化～［02:00］

【 2009/03/18 】

■	ノモケンの「素組でロボット」バンダイ 1/72スケール「VF-25F メサイアバルキリーアルト機」(その3) ［14:28］

【 2009/03/11 】

■	ノモケンの「素組でロボット」バンダイ 1/72スケール「VF-25F メサイアバルキリーアルト機」(その2) ［00:05］

【 2009/03/06 】

■	月刊ROBOTウォッチング～2月はエンタメ路線を爆走!? ［11:31］

【 2009/03/04 】

■	ノモケンの「素組でロボット」バンダイ 1/72スケール「VF-25F メサイアバルキリーアルト機」(その1) ［13:05］

【 2009/02/27 】

■	通りすがりのロボットウォッチャー脳とロボットを直接つなぐBMI ［00:10］

通りすがりのロボットウォッチャー
ハッキリ話そうロボット君

Reported by 米田裕

　ロボットと人間の関係を考えると、コミュニケーションが楽しいと思える。人間は、言葉はもちろん、言葉以外の身振りや表情や声の変化によるコミュケーションをしているわけだが、ロボットの場合には「声」によるコミュニケーションが大きな比重をしめるだろうね。

　さて、その「声」を考えると、いまだにロボットの声はいまひとつな感じだ。

　ロボットに話をさせる方法は2つある。

　ひとつは人間が話した言葉を記録しておく。そして、それらの言葉の組み合わせで話をさせる方法だ。

　もうひとつは音声合成をして、話をさせる方法となる。これは後者の方が自由度は高い。

　しかし、声というか、言葉というか、それが音声合成系ではわかりづらい。はっきりとした自然な音声とはならないのである。

　その点、人間の声を録音して組み合わせる方式は、はっきりとした言葉となって伝わる。だが、臨機応変に会話をするとなると、ものすごい語彙の種類とデータ容量が必要だ。

　考えられる単語をすべて録音しておかないといけない。これは、ほとんど無理だし、ロボットが自分で考えて話す時代になれば、この方式では成り立たない。

　そこで、音声合成による会話方式となるのだが、ロボットによっては、かなり古い時代の音声合成方式を使っているように思える。

● ロボットは喋るのが当たり前?

　さて、その昔、馬が喋るなんて信じられなかった頃、馬は三遊亭小金馬の声で喋っていた(笑)。もちろん、吹き替えのアテレコである(わからない人は「ミスターエド」で検索すべし)。

　テレビでは、映像に会話をあてることで、人形でも動物でも、なにもかもが話をしていた。アニメは本来は絵であるが、「鉄腕アトム」は「清水マリ」さんの声で喋っていたし、「エイトマン」は「高山栄」さんの声で話していた。子供は、それが当たり前だと思っていた。

　ロボットは人間と変わりなく話すことができると刷り込まれて育ってしまうと、現在のロボットの話し方や声が気になってしまう。

　市販されているコンピューターが初めて喋ったのは、アップルIIのころかと思うが、その後発売されたNECのPC-6001は喋ることができた。さらには歌まで歌えるのだった。

　この機能に着眼した、ニュートンスタジオの東祥高氏は、「デジタロー」という大阪弁で話すキャラクターをつくった。「キダタロー」ではないので関西方面の方はご注意を。

　どちらにしろ関西だが、デジタローがラジオ番組で、話したり歌ったりするコーナーがあったそうだ。「そうだ」としか書けないのは、俺は関東で生活していたため、その番組を直接聴くことができなかったからだ。しかし、関西の友人からカセットに録音してもらったもの送ってもらい、まとめて聴いた。だから、番組全体は知らないのだ。

　関西弁で話すデジタローは、なんだかヘンだった。のちに、アップルIIIだかMacintoshによるキャラも増えて、英語でデジタローにからんでいた。

　その後、1995年ごろのMacintoshには、OSの付属機能として「Text-to-Speech」という音声機能が追加されていて、英語はスラスラと話すようになっていた。

　テキストをローマ字で書くと、なんとか日本語らしく話させることができたので、だいぶ遊んだ記憶がある。その声のひとつが、インターネット上でFlashアニメとしてヒットした「ゴノレゴ13」(ポエ山氏作)に使われていた。これは妙におかしかった。

● ロボットの声にはまだ不満あり

　お話変わって、最近のロボットは、「デジタロー」の声から大変化をしているのかといわれると、「ワテ、ワカラヘン」と腰砕けになる。

　実際にその場で声を聴いたことがあるのは、ASIMO、アクトロイド、PaPeRoの前身であるR100といったところ。ネットの映像で聴いたのは、wakamaru、Smart Pal、PaPeRo、HRP-2といったところか。

　このうち、アクトロイドは声優さんによる声を再生しているだけだから除外。ASIMOもイベント会場で聞いただけなので、録音によるものか、その場で発声していたのか不明なので除外しておこう。

　家庭内での使用を想定し、自由に会話をするのはwakamaruとPaPeRoだが、それ以外のロボットの音声はオマケといった感じで、滑舌はあまりよくないし、発音もいまひとつだ。

　これは音声合成チップがまだまだなのか、人の音声を合成するアルゴリズムが未完成なのか、通りすがり者には理由がわからない。

● 音の合成技術の進歩

　音を合成するといえば、1960年代後半、シンセサイザーが華々しく登場した。既存の楽器の音を再現し、未知の音も作れるとのふれこみだった。

　いままで聞いたことのない音は得意だったが、実際の楽器の再現は完全とはいえなかった。その後エンベロープの数を増やしたり、オシレーターの種類を増やしたり、アルゴリズムを変更したシンセサイザーが登場したが、生の楽器音を完全には再現できなかった。

　そこで登場したのが、サンプラーという、生音を録音してデジタル化したものだった。これはリアルだったが、サンプリングポイントが少なかったり、ビットレートが低かったりすると、とたんに不自然な音となった。

　多くのサンプリングポイントを使うことは、それだけデータ容量が必要で、ハードディスクやフラッシュメモリが高価な時代に登場したため、使えるメモリは限られていたからだ。

　メモリを使わずに生の楽器音に近くするために、音の出だし部分だけにサンプリング音を使い、後はシンセサイザーで合成するハイブリッド音源が登場した。メモリが大量に使えないので苦肉の策だったのだろう。

　その後、デジタル音源はパソコン内のソフトウェアへと移行し、現在のパソコンの処理能力と、ハードディスク容量から、単音ではなく、生楽器のフレーズや奏法そのものをサンプリングした、非常にリアルな音源が出回っている。

　処理能力の進歩とデータ容量の増大が、楽器音の再現に貢献しているといえよう。

　となると、ロボットの音声は、まだまだCPUの処理能力はロボットの動きや周囲の認識などに大きなパワーを使わなくてはならず、声にまで手が回らない状態なのだろうか。

　一説には、現在のロボットは2足歩行タイプでも、まだ人間とはかけ離れているので、ロボットらしい音声に「あえて」しているのだという。

　それでも、発音がはっきりとしていないものもあって、何を話しているのかわかりづらい。コミュニケーションを求めるタイプのロボットはもちろん、最低限全てのロボットは言葉としてわかる発音をしてもらいたい。

● 言葉の持つ力は大きい

　コミュニケーションに特化したロボットに、NECのPaPeRoがあるが、前身のR100を取材に行ったことがある。

　当時は声優さんの語彙をハードディスクに記録し、それで会話をしていた。

　「ねぇねぇ、よっちゃ～ん、何か用?」
　「んふふふふ～♪」

　などと、どこかで会ったことありませんかと尋ねようかと思ったぐらい、会社や身近な社会グループの中には、こういう女性が1人はいるよねという話し方だった。

　当時からNECでは、顔の認識や音声の認識に力をいれ、コミュニケーションこそロボットの使命と研究をしていた。だからかR100には腕も手もなく、移動する胴体とくるくると動く顔しかなかった。

　顔の認識で誰だかわかるので、顔を見せてこらんなさいとのことで、R100の前に俺の顔を持っていった。

　じっとこっちを見ているR100。少しの間があり、やがて首を少し傾けて「知らない人ぉ～」と声をだした。

　俺はその場でいっぺんにR100のファンになってしまった。このように、声や言葉の持つ力は大きい。

　ロボットという機械が、何も話さず、無言のまま近寄ってくると怖い。これは、知らない人間が無言で近寄ってくると怖いのと同じだ。

　見知らぬ人とでは阿吽の呼吸もない。「やぁ、どうもどうも」「いい天気ですな」などと遠くから声によって警戒を解きつつ近づくのが暗黙のルールだ。

　黙って近づいたがために、米国では銃で撃たれたなんて事件もあったと思う。話さないということはそれほどの恐怖を人に与えるということだろう。

　だから、人と関係するロボットは、全ての機種で会話がきちんとできることが求められる。その声や会話は、音としてはっきりとわかりやすいものがいいだろう。

　R100の後継機種のPaPeRoでは、合成音声になって、ちょっと言葉がわかりづらくなり、可愛さも少し減ってしまった気がする。合成音声でもR100ぐらいの声と発音をしてもらいたい。

　楽器メーカーのヤマハではヴォーカロイドという、歌を唄わせる合成音声の音源を発売しているが、そこそこ自然な声だし、ペンタックスのVoiceTextも女性の声はかなり自然だ。

　こうした音声技術をロボットにも搭載してほしい。レスキューロボットでも「はい、そこちょっと通してな、すんまへんな。おーい、そっちに誰かおるかー?」なんて言いながら活動すれば、助けられる方も安心感が増しそうだ。

　ロボットとのコミュニケーションは、ますます必要とされるだろう。音声認識や会話のアルゴリズムも重要だが、声質や発音にも気を使ってもらいたいものだ。

■URL
　 YAMAHA VOCALOID
　 http://www.yamaha.co.jp/product/vocaloid/jp/index.html
　ペンタックス VoiceTextデモ
　 http://voice.pentax.co.jp/pentaxtts/ttsdemoini.asp

■ 関連記事
・通りすがりのロボットウォッチャー
善いも悪いも人間しだい（2007/03/23）

米田　裕(よねだ　ゆたか)
イラストライター。'57年川崎市生。'82年、小松左京総監督映画『さよならジュピター』にかかわったのをきっかけにSFイラストレーターとなる。その後ライター、編集業も兼務し、ROBODEX2000、2002オフィシャルガイドブックにも執筆。現在は専門学校講師も務める。日本SF作家クラブ会員

2007/04/13 00:04

- ページの先頭へ-

Robot Watch ホームページ