インタビュー

第2回「研究方向180度変えブレークスルー」（隅田英一郎氏／情報通信研究機構多言語翻訳研究室長）

2012.09.14

隅田英一郎氏／情報通信研究機構多言語翻訳研究室長

「ここまで来た音声翻訳システム」

自動翻訳それも言葉を音声で入力するとたちどころに話し相手の言葉に翻訳してくれる携帯機器は、語学が不得手な人に限らず多くの人の夢といえよう。日本語と英語といった1対1の翻訳にとどまらず、同時に5つの言語の間で音声翻訳できるシステム開発が、日本がリードする国際協力で急速に進歩している。世界21カ国、23の研究機関と連携した研究共同体「ユニバーサル音声翻訳先端研究コンソーシアム(U-STAR)」の代表を務める情報通信研究機構は、iPhone(スマートフォン：多機能携帯電話)を介して23の言語を翻訳できるソフトを7月に公開した。23の言語は、世界の人口の95%をカバーする。ソフトはだれでもiPhoneに無料でダウンロードでき、iPhoneが利用可能な地域なら世界のどこでも利用可能だ。ロンドンオリンピックでは早速、iPhoneを持つ人々が、別の言語しか話せない目の前の人たちと音声応答する実証実験が行われた。情報通信研究機構でこのシステム開発の中心となっている隅田英一郎・多言語翻訳研究室長に、開発の現状と見通しを聞いた。

―30年ほど前、当時の通産省が鳴り物入りで第5世代コンピュータ計画を始めました。取材した時に聞いて、今でもよく覚えているのは「卓上に置くと通訳の役割を果たしてくれるようなコンピュータが可能に」という言葉です。結局、夢のような話だった、とばかり思っていました。どんな技術的飛躍があって、多言語音声翻訳システムが可能になったのでしょうか。

一言で言うと、データ中心の考え方に研究の方法をパラダイムシフトしたことによります。これで21世紀の翻訳や音声認識の研究が飛躍的に進みました。昔は、機械翻訳は辞書と文法の世界だったのです。学校で習う英文法や国文法で文章の意味を解析し、対訳辞書で相手側の言葉に直してやるというのが基本的な考え方でした。それが行き詰まりを見せたのが、1980年代くらいです。

1990年代になって、新しいアプローチとして出てきたのが「対訳コーパス」に基づく翻訳でした。例えば「京都駅はどこですか」の英語訳としては「Could you direct me to Kyoto station?」というのがあります。「駅はどこですか」には「Where is the station?」、「トイレはどこですか」には「Where is the restroom?」、「タクシー乗り場はどこですか」には「Where is the taxi stand?」という訳があります。さらに「ここはどこですか」に対しては「Where am I?」という訳があります。翻訳したい言葉について、こうしたいろいろな訳文をたくさん集めます。例えば旅行に関しては20万文、特許になると単語の種類も多く、文も長いので1,000万文くらいの量になりました。

こうして集めた訳文から、「確率付き対訳辞書」というものをコンピュータで自動的に作成します。例えば「どこですか」という言葉が入っている訳を集めると大体、5分の3は「Where is」と翻訳しており、「Could you」と「Where am」がそれぞれ5分の1くらいになることが分かります。新しい入力文が入ってきたときに、「どこですか」を訳すには3通りあり、5分の3あるいは5分の 1といった確率が付き、さらに語順が変化する確率や、相手の言語らしさという確率をすべて掛け合わせた確率が最大になる訳文、つまり最も頻繁に使われている訳文が何かが求まります。このように確率付対訳辞書など翻訳に関する確率的なモデルを使うことで、最も良い訳文を提示することが可能になりました。

どういう表現がよく使われるかという実際のデータが基になっていますから、頭で考えたものよりはるかに高い精度が実現できたのです。

―「対訳コーパス」という考え方が、当初から取り入れられなかったのには何か理由があるのでしょうか。例えば、泥臭すぎて研究者としては食指が動かなかったといった…。

そうですね。研究者というのは大体が、シンプルなもの、美しいものを求めます。数学や物理の考え方に添った方向でものを考えたがりますから、文法にしても、規則が例えば1,000個と10個だったら10個の方がよく、それをさらに1つの規則にまとめたいというのが普通の研究姿勢です。

ところが、その考え方ですと、翻訳しようにも時間だけかかって、しかもうまく訳せません。単純な原理でさばこうとすると、例外が山のように出てくるからです。「対訳コーパス」は実際の訳文を集めたものですから、例外は、自然に埋め込まれているわけです。そこが大きな違いで、このことに気付き研究の方向を 180度変えることにより、ブレークスルーが得られたということです。

(続く)

札幌市生まれ、東京都立新宿高校卒。1982年電気通信大学大学院修士課程修了。京都大学大学院博士(工学)。株式会社日本IBM、株式会社国際電気通信基礎技術研究所(ATR)を経て、現在、独立行政法人情報通信研究機構(NICT)多言語翻訳研究室室長。言語処理学会副会長(総編集長)も。83年科学技術庁(当時)の自動翻訳の研究プロジェクトMuに参画、規則翻訳の研究に従事。89年名詞句「AのB」を英語に翻訳するという困難な課題に用例翻訳が有効であることを実証し、これを文の翻訳まで拡張する。その後、統計翻訳の研究をベースに音声認識と自動翻訳を組み合わせて、音声翻訳システムの実用化に貢献した。現在は、翻訳支援サイト「みんなの翻訳」、音声翻訳アプリ「VoiceTra」、eコマースや特許の専用自動翻訳などの研究開発を統括する。主な受賞は、日本科学技術情報センター賞学術賞(96年)、アジア太平洋機械翻訳協会長尾賞(2007年)、情報処理学会喜安記念業績賞(08年)、文部科学大臣賞(10年)。