インタビュー

第3回「次の目標は長文の音声翻訳」(隅田英一郎 氏 / 情報通信研究機構 多言語翻訳研究室長)

2012.09.21

隅田英一郎 氏 / 情報通信研究機構 多言語翻訳研究室長

「ここまで来た音声翻訳システム」

隅田英一郎 氏
隅田英一郎 氏

自動翻訳それも言葉を音声で入力するとたちどころに話し相手の言葉に翻訳してくれる携帯機器は、語学が不得手な人に限らず多くの人の夢といえよう。日本語と英語といった1対1の翻訳にとどまらず、同時に5つの言語の間で音声翻訳できるシステム開発が、日本がリードする国際協力で急速に進歩している。世界21カ国、23の研究機関と連携した研究共同体「ユニバーサル音声翻訳先端研究コンソーシアム(U-STAR)」の代表を務める情報通信研究機構は、iPhone(スマートフォン:多機能携帯電話)を介して23の言語を翻訳できるソフトを7月に公開した。23の言語は、世界の人口の95%をカバーする。ソフトはだれでもiPhoneに無料でダウンロードでき、iPhoneが利用可能な地域なら世界のどこでも利用可能だ。ロンドンオリンピックでは早速、iPhoneを持つ人々が、別の言語しか話せない目の前の人たちと音声応答する実証実験が行われた。情報通信研究機構でこのシステム開発の中心となっている隅田英一郎・多言語翻訳研究室長に、開発の現状と見通しを聞いた。

―それにしても、音声を認識して翻訳し、さらにそれを音声合成する音声翻訳システムが実際に使えるというのは、なかなか信じがたいことです。

音声によるコミュニケーションというのは、特に対面の場合は、間違いに皆、寛容なのです。意味が通じなければ、相手はけげんな顔をするでしょう。それを見 て言い直すといった臨機応変の応答で、言葉の間違いを補完しているわけです。そもそも人間のコミュニケーションというのは、フェース・ツー・フェースの対 話が主です。人間の会話は極めてずさんなところがあり、文法を間違えたり、単語の選択もおかしかったりするのはしばしばです。「言いたいことはこういうこ とだろう」と推測し、補い合うことでコミュニケーションが成立しています。言葉尻を捉えてそれを指摘するなどということは普通しないで、お互い理解しよう と努力しているわけです。

百パーセント翻訳できなかったら使えないとなると、市場に製品として出て行きません。しかし、「コミュニケーションのサポート手段」と位置づけると、今の 技術でも十分役に立つと考えています。例えば、中国語が全くできない人でも、中国に出かけて現地の人と少しでも対話をしたい、と音声翻訳システムを使って みる。すると、自分の意思をとにかく相手に伝えることができた。このシステムがあって便利だった、ありがたかったと感じてくれる―。そういう次元の製品、 成果物と考えていただければ、と思います。

ただし、遠く離れた場所にいる場合に使うのは少々危険でしょう。表情を読めませんから、音声だけとなると誤解が生じやすくなります。そうした場合はテレビ 電話と組み合わせて使っていただく、ということになろうかと思います。”翻訳率7、8割の精度”といっても、2、3割は間違えるということですから…。

―仮に相手の表情などから「翻訳がまずくて通じなかった」と思えば別の言い方をしてみる。それでも通じなかったら何回か繰り返すうちに通じる、ということですね。

おっしゃる通りです。

―このシステムの将来像をお聞きしたいのですが。この先、どのくらいのスピードでどのような性能が期待できるでしょうか。

ユニバーサル音声翻訳先端研究コンソーシアム「U-STAR」に加盟している23カ国全てのシステムが高性能かと言われると、そうではありません。性能の低い国のシステムをあと3年くらいの間に引き上げたい、というのが第1の目標です。

また、現在は未加盟である北欧や中央アジアの国々も仲間に入れて、全世界の言語を取り込めるようにしたいというのが、第2の目標です。そうなれば旅行用の音声翻訳としては、一応、完成ではないかと思っております。

情報通信研究機構としては、さらに別のことにも挑戦したいと考えています。旅行用の音声翻訳というのは、単語数にすると5単語、6単語くらいです。8割く らいの精度で世界展開ができたということは、既に一定の段階に到達したと言えますから、次の目標としては単語の数が多いもっと長い文の音声翻訳に挑みたい と考えております。例えば、テレビニュースや長い演説の翻訳です。さらに先ほど質問された会議場の真ん中に置いておけば、参加者がそれぞれ自国語で話して も会議ができる。そんな音声翻訳装置が、その次の目標でしょうか。

旅行用の音声翻訳システムで扱う文章は、短い上に美術館に行く方法や食事の話など内容も限定されています。次の目標達成では、内容の限定を弱くしていかないと成立しないので、一段と広くかつ深い技術を作り上げることが必要になります。

―そうした次の目標を実現するには、「文法からデータへ」という過去のパラダイムシフトに匹敵するような新しい方法が求められているのでしょうか。それとも「データを集める」という現在のやり方の延長線上でも可能なのでしょうか。

2つあります。1つは今の方法の延長ですが、基礎となるデータを安く早く集める方法を考えなければなりません。例えば音声データであれば、インターネット 上にたくさんあるデータを集めてきて、音声翻訳システムを作るために役立つように加工する。こうした処理を全て自動的にやってシステムをつくる、といった ことが必要になります。データを効率的に集めてくることができるかどうか、がポイントです。

2つ目は、今までのやり方の延長ではできません。長い文の翻訳で特に考えなければならないのは、文脈です。対象の文だけでなく、1つ前の文、さらにはもう 1つ前の文に含まれる情報を使った処理が必要になってくるということです。このためには、これまでの研究のやり方とは大きく異なることを考えなければなり ません。

(続く)

隅田英一郎 氏
(すみた えいいちろう)
隅田英一郎 氏
(すみた えいいちろう)

札幌市生まれ、東京都立新宿高校卒。1982年電気通信大学大学院修士課程修了。京都大学大学院博士(工学)。株式会社日本IBM、株式会社国際電気通信基礎技術研究所(ATR)を経て、現在、独立行政法人情報通信研究機構(NICT)多言語翻訳研究室室長。言語処理学会副会長(総編集長)も。83年科学技術庁(当時)の自動翻訳の研究プロジェクトMuに参画、規則翻訳の研究に従事。89年名詞句「AのB」を英語に翻訳するという困難な課題に用例翻訳が有効であることを実証し、これを文の翻訳まで拡張する。その後、統計翻訳の研究をベースに音声認識と自動翻訳を組み合わせて、音声翻訳システムの実用化に貢献した。現在は、翻訳支援サイト「みんなの翻訳」、音声翻訳アプリ「VoiceTra」、eコマースや特許の専用自動翻訳などの研究開発を統括する。主な受賞は、日本科学技術情報センター賞学術賞(96年)、アジア太平洋機械翻訳協会長尾賞(2007年)、情報処理学会喜安記念業績賞(08年)、文部科学大臣賞(10年)。

関連記事

ページトップへ