オピニオン

社会実装進む音声自動翻訳 高精度汎用自動翻訳の挑戦も(隅田英一郎 氏 / 情報通信研究機構 ユニバーサルコミュニケーション研究所 多言語翻訳研究室)

2015.09.11

隅田英一郎 氏 / 情報通信研究機構 ユニバーサルコミュニケーション研究所 多言語翻訳研究室長

隅田英一郎 氏
隅田英一郎 氏

 訪日外国人数は2014年には1,300万人超を記録し、2020年は政府目標の2,000万人を上回る3,000万人達成もうかがう勢いである。オリンピック・パラリンピックが2020年に東京で開催されることもあり、外国人と日本人の間にある「言葉の壁」が再認識され、関心を集めている。外国語は容易に習得できないし、多言語となれば語学の天才にのみ可能だ。情報通信技術(ICT)による音声翻訳の実用化が現実解である。

 音声翻訳は世界に先駆けて1986年に日本で研究が始まった。社会実装の期限は2020年とされており、基礎研究から事業化まで35年という長丁場である。音声翻訳の仕組み・研究小史・社会実装動向、加えて「高精度な『汎用の』」自動翻訳を創出する挑戦について述べる。

音声翻訳の仕組み

 音声翻訳は、音声を認識して文字化し、自動翻訳で相手の言語に変え、訳文の音声を合成する。これらの要素技術に共通の要は「実際のデータを使うことによって高精度を達成する」ことである。例えば、自動翻訳では対訳データ(原文とその訳がセットになったデータ)1からモデルを学習し、このモデルに基づいて訳を決める。日本語と英語の対訳データから、日本語表現が英語表現に訳される確率が計算できる。「どこですか」という表現が既存の対訳データの5カ所に登場し、うち3カ所の訳が「Where is」なら、「どこですか」が「Where is」に訳される確率は60%である。

 このように訳語や語順を確率的にモデル化し、確率の積が最大になる訳文を出力する。「対訳データから翻訳システムが自動的に構築できること、対訳データ量が多いほど翻訳の精度が高くなること」がポイントになる。

音声翻訳の研究小史

基礎研究の時代

 かつて日本は、欧米から「基礎研究をせず、開発でもうける。欧米の基礎研究へのただ乗りだ」と非難されていた。非難に対抗する目的で政府が1986年に基礎研究への大規模投資を始め、テーマの一つに音声翻訳が選ばれた。

 (1)当時の音声認識では定型文の認識はできるが自由文の認識はできなかったし、(2)自動翻訳は文法に則った書き言葉(例えばマニュアル)が翻訳できる段階で、文法に必ずしも従わない話し言葉は対象外であり、(3)音声合成はロボットにしか聞こえないレベル—だったため、3つの要素を組み合わせる音声翻訳は「絵に描いた餅」だった。最初のデモシステムが完成するまでに7年を要し、そのシステムは1文を処理するのに1分もかかる代物だった。

 しかし、音声翻訳のフィージビリティ(実現可能性)を証明する大きな一歩であったといえる。その後、自然に発声した文も翻訳可能になるなど、大幅に進歩した。

応用研究の時代

 2008年に音声翻訳の実用化の可能性が政府に認められ、内閣府社会還元加速プロジェクトの一つとして大規模な予算が担保され、旅行会話の分野に限定されながらも、「研究室から街に出て」全国5地域でフィールド実験を実施した。情報通信研究機構(NICT)は、この時の実験のログデータとさまざまな知見に基づいて、音声翻訳システムの性能を改善し、世界初のスマホ用の音声翻訳アプリ「VoiceTra」を一般公開した。

 さらに、国際的共同研究のための共同体を作り、扱う言語数を増やすなど普及に努め、通算で100万を超える多数の人に音声翻訳を「直接」体験してもらうことができた。この後、VoiceTraの技術は成田国際空港、NTTドコモ、auなどに次々と採用された。

音声翻訳の社会実装の動向

国の政策

 2014年4月11日に総務大臣が発表した「グローバルコミュニケーション計画」2 において、NICTが開発した多言語音声翻訳技術を高度化し、社会実装を推進していくとされた。これに応じてNICTは2014年9月に京都に先進的音声翻訳研究開発推進センター3を設置し、企業を呼び込み一気に研究者を増員した。さらに、社会実装していくために、同年12月には、グローバルコミュニケーション開発推進協議会4が設立され、サービス事業者も含め産学官の組織が結集された。

社会実装の対象分野

 旅行会話の分野で実用化できていた音声翻訳の多分野化をしていくことになった。対象分野は、医療、防災、ショッピング、タクシー・鉄道など多岐にわたり、最終的には、外国人が不自由なく生活できることを目指している。

 医療分野について詳しく述べる。近年、外国人の旅行者・定住者が急増しており、医療機関での外国人対応が喫緊の課題となっている。病院内のさまざまな場面(医師による診断、看護師によるケア、薬剤師による服薬指導など)での利活用が期待されている。一方、医療は「命に関わる」分野であり、誤訳への懸念がある。これに対しては二つの回答がある。

 (1)医療のコミュニケーションでは、言葉は一つのチャネルにすぎず、表情、動作、バイタル等を見てトータルで判断がなされるので、過度な心配は不要である。むしろ、言葉のチャネルが閉じた状態ではコミュニケーションが成立しないことが多く、ホスピタリティの低下や医療過誤が懸念されている。

 (2)本当にシビアな条件では人間の医療通訳者に対面で対応してもらう、より深刻でない場合は、医療通訳者に電話を介して対応してもらう、大部分の場面では自動通訳を使うなど、状況によりすみ分けた運用が想定されている。手術室の中などでは、資格の問題で人間の通訳者が入りにくいため、機械による翻訳が期待される。単一の手段で問題が解決できないので、複数の手段の最適な組み合わせが待たれる。

 NICTと東京大学医学部附属病院は、医療分野向けの音声翻訳システムを構築した。さらに、倫理審査(承認番号10704)を経て、2015年1月19日〜3月13日の期間、総合受付で外国人患者の方48人にご協力いただいて臨床実験を実施した。結果を分析し、改良し、さらに利用シーンを拡大して実験を継続する予定である。

社会実装に向けた周辺技術

 NICTがこれまで開発してきている音声翻訳のコア技術に加えて、周辺技術についても研究開発に取り組む必要がある。一例として雑音抑圧技術を見てみる。屋内外のさまざまな場面の騒音下での利活用では、音声認識精度が下がり、翻訳精度も劣化する。この劣化を軽減するためには、発話者がマイクに入力した音声情報から雑音成分を抑圧し、発話者の音声をより明瞭化した音声情報を多言語音声翻訳システムへと入力する技術が不可欠になる。複数のマイクを使って指向性集音することで雑音下での認識精度の改善が期待されるが、指向性の向きと範囲を実時間で最適化する必要がある。このような課題解決のため、2015年に総務省委託研究が開始された。

民間の動き

 政府施策と並行して、民間企業による独自の活動が活発化している。NTT-BP社のWiFi接続のアプリから「翻訳」ボタンをタップするとVoiceTraが起動できるようになり外国人への訴求力が増した。また、京急、東京メトロなどの鉄道会社では、VoiceTraを搭載した駅員の端末を使って実証実験が行われている。パナソニック社はペンダント型、メガホン型、平置き型のデモ機など作製し、実証実験を通して最適なインターフェースの開発に着手している。ホンダ社のヒューマノイドも外国語をしゃべり始めた。

「高精度な『汎用の』」自動翻訳を創出する挑戦

 ここで少し視点を転じる。現在、旅行会話の短文の音声翻訳ができ、外国語特許の長文も見事に日本語文に翻訳できる。音声翻訳は「VoiceTra」 (http://voicetra.nict.go.jp/)、特許翻訳は「みんなの自動翻訳@TexTra?」(https://mt-auto-minhon-mlt.ucri.jgn-x.jp/)で体験できる。他の分野でも高精度自動翻訳へのニーズが大きいが、ビジネス文書、行政文書など該当分野の対訳データが確保されていないため、高精度化できていないことが多い。一方、残念ながら、市販の汎用翻訳は低精度である。

 日本の翻訳市場には毎年2,000億円が投入されている。5億もの文の翻訳が生産されているが、自動翻訳システムの構築に活用されていない。NICTはこれを対訳データとして活用する挑戦を始めている。翻訳保有者との交渉からデータベース化まで、仕組みを確立し「日本中の翻訳を集める」ことで、多分野の翻訳システムが構築できる。このシステムを使えば、翻訳時間が短縮できるので費用が安くなり、翻訳需要が膨らむ。結果、翻訳の拠出が増加して、ポジティブスパイラルが始まる。最終的には、「高精度な『汎用の』」自動翻訳が実現できる。

 「言葉の壁」は日本の弱点ではあるが、逆に、その克服を目指した結果、多言語音声翻訳システムの研究開発は世界で最も進んでおり、社会実装も軌道に乗った。世界のどこにもない「高精度な『汎用の』」自動翻訳を実現する挑戦も始まった。国際化を強力に支えるツールとして利活用される日は近い。

1.対訳コーパスとも呼ぶ。
2.http://www.soumu.go.jp/main_content/000285578.pdf
3.http://www2.nict.go.jp/astrec/index.html
4.http://gcp.nict.go.jp/、2015.7.8現在 122会員。

隅田英一郎(すみた えいいちろう)氏
隅田英一郎 氏(すみた えいいちろう)

隅田英一郎(すみた えいいちろう)氏のプロフィール
1982年電気通信大学大学院修士課程修了。99年京都大学大学院博士課程修了、博士(工学)。82年(株)日本アイ・ビー・エム東京基礎研究所研究員。92-2009年国際電気通信基礎技術研究所 研究員、主幹研究員、室長。07年から情報通信研究機構研究マネージャー、グループリーダー、ユニバーサルコミュニケーション研究所副所長 多言語翻訳研究室長として機械翻訳、情報検索、eラーニングに関する研究開発に従事。05-11年神戸大学大学院システム情報学研究科客員教授。言語処理学会 会長。

関連記事

ページトップへ