オピニオン

人工知能(音声認識・ロボット)研究の目指すものと到達点

2015.09.28

河原達也 氏 / 京都大学 情報学研究科・学術情報メディアセンター 教授

河原達也 氏
河原達也 氏

 最近、人工知能がブームになっている。私の専門の音声認識も、数年前にスマートフォンのソフト(Siriや「しゃべってコンシェル」など)の登場に伴ってブームとなった。私どもの研究室を志望する学生にその理由を聞くと、「人間のように対話ができるシステムを作りたい」とか「ドラえもんのようなロボットを作りたい」という人が多い。私自身は学生時代に、「コンピュータが言葉をわかるようにできるのだろうか」と素朴に思った。

 究極の人工知能が人間のように推論できるものであり、究極の音声認識が人間のように会話できるものとすると、その実現は気が遠くなるくらい先のように思える。当初は上記のような夢を持ってこの研究分野に入ったとしても、そういうことを真剣に考えながら研究を行っている中堅以上の研究者が現在どれほどいるのかも疑問である。

 人間のようなものを目指して研究を行う立場に対して、とにかく人間のやっている高度なことを一部でも代替して世の中の役に立てばよい、という考え方がある。企業の場合はビジネスにならないと持続できないし、大学などにおいても工学系の場合はこういう発想になりがちである。

 私が学生のころの1980年代に、人工知能や音声翻訳がブームとなり、国のプロジェクトとして多大な資金が投じられた。おそらく多くの方は純粋に研究をされたと思うが、夢だけが残って、モノになったのはほとんどなかった。これに対して現在のトレンドは、大きな国のプロジェクトでも実用的な視点が主のようである。

 実際に、コンピュータの処理能力や記憶容量の増大によって、応用を限れば、人間の能力を上回ることも可能になってきた。大規模な知識ベースから、瞬時に答えを検索するシステム(IBMのWatsonなど)がその典型である。音声認識でも、難しい内容の講演や会議をリアルタイムで書き起こし、タイプできる能力でみると、大半の人間より高いレベルといえる。しかし、人工知能や音声認識が、数値計算や他の多くの計算機科学・情報技術の分野と異なるのは、どこまでよくなっても誤りがなくなることがないし、誤りを一定以下に抑えることを保証するのも難しいという点である。これは、人間のような一面といえる。

音声認識の現状

 現在のスマートフォンやタブレットで動作している音声認識を使ってみると、かなり高い精度であることが分かる。数年前と比較しても格段に精度が良くなっている。これは、最近の深層学習(ディープラーニング)の効果と、多くのユーザが発する音声データを用いることができた結果である。

 以前は話者を特定したり、語彙(ごい)を限定しないと高い性能を得られなかったが、現在ではこのような制約はほとんどなくなっている。ただし、静かな環境でマイクに向かって、丁寧・明瞭に発声することは前提となっている。騒音下、遠隔マイクで入力する場合や、日常会話のようにくだけた話し言葉については、依然困難である。また、実用的に高い認識精度(おおむね90%以上)を実現するには、アプリケーションごとに音声認識システムのモデル構築やカスタマイズが必要である。さらに最近の多くのシステムは、クラウドサーバ上で処理を行い、インターネット接続が前提となっている。一方で、現在の音声認識システムは、言葉を理解しているわけでなく、かなり局所的な単語連鎖などの制約に基づいて動作している。これは、人間と決定的に違う点である。

音声認識による字幕付与の様子
音声認識による字幕付与の様子

音声翻訳の現状

 音声翻訳は、音声認識を行った結果に対して機械翻訳を適用するものであるが、こちらもスマートフォンアプリとして多数実現されている。例えば、英語と日本語の翻訳であれば、平均的な日本人の英語能力を上回るレベル、あるいは「流ちょうな外国人」レベルに到達しつつある。しかし英語がある程度できる人から見れば、奇妙な結果が出力されるのが多いのも事実である。それでも、ほとんど知らないような言語であれば重宝するし、エンドユーザが「自己責任で」使うのであればよいかもしれない。ただし、サービスとして安心して提供できるレベルにはまだ遠いと考えられる。

 機械翻訳も最近は統計的手法が主流となっており、大規模な対訳データ(コーパス)を用いて、単語やフレーズの言語間の対応付けと並び換えを機械学習・最適化問題として解いている。こちらは言語の構造を把握しようとはしているが、意味を理解した上で翻訳を行っているのではないのは音声認識と同様である。

自律的に会話ができるアンドロイドERICA

 このように音声認識や音声翻訳が、大規模なデータに基づく「機械」学習により一定のレベルに到達したのに対して、私たちは人間のように音声対話を行えるロボットの実現を目指して研究を行っている。これは昨年から開始した、科学技術振興機構(JST)の戦略的創造研究推進事業ERATO「石黒共生ヒューマンロボットインタラクション」プロジェクトで、大阪大の石黒浩(いしぐろ ひろし)教授が研究開発してきた人間酷似型アンドロイドを、完全に自律的にインタラクションを行えるようにすることを目指している。見かけ・表情・振る舞い・音声対話を総合して、人間とみまがうレベル(トータルチューリングテスト)を実現することを目標としている。

 これは、「外部仕様」の上で人間と同等のものを構築するという点で、究極の人工知能と捉えられるが、もちろん容易ではない。ただし、受付とかカウンセリングなどの社会的役割を設定した上で、「流暢な外国人」レベルであれば十分に可能性があると考えている。むしろ、そういう状況で、どのようにして円滑にコミュニケーションを行うのか、聞き取りがうまくいかない場合にどのように乗り切るのか、人間に学び、模倣する必要があると考えている。つまり、これはわれわれ人間がどのようにコミュニケーションを行っているのか、何が欠けると不自然になるのかを明らかにする研究でもある。

自律型アンドロイドERICAの記者会見の様子
自律型アンドロイドERICAの記者会見の様子
(「自然な対話可能なヒト型ロボット開発」から)
河原達也(かわはら たつや)氏
河原達也 氏(かわはら たつや)

河原達也(かわはら たつや)氏のプロフィール
京都大学情報学研究科・学術情報メディアセンター 教授。音声言語処理,特に音声認識及び対話システムに関する研究に従事。主著に、「音声認識システム」「音声対話システム」(いずれもオーム社)。IEEE、情報処理学会、日本音響学会、電子情報通信学会、人工知能学会、言語処理学会、各会員。

関連記事

ページトップへ