レポート

研究開発戦略ローンチアウトー第35回「ビッグデータ時代におけるデジタル情報持続性の危機 〜21世紀のロゼッタストーンメモリを目指して〜」

2012.06.20

河村誠一郎 氏 / 科学技術振興機構研究開発戦略センター フェロー/エキスパート

河村 誠一郎(科学技術振興機構研究開発戦略センター フェロー/エキスパート)

科学技術振興機構研究開発戦略センター フェロー/エキスパート 河村 誠一郎

 「1975年に打ち上げられたNASAのバイキング火星探査機の初期デジタルデータは、磁気テープ上に記録され、低温で乾燥したデータ保管庫に保管されていた。しかし、1999年に南カリフォルニア大学のジョセフ・ミラーがデータをチェックしようとしたところ、テープは探し出せたものの、それを読む方法を見つけることができなかった。わずか25年前のデータであるにもかかわらず、そのフォーマットをNASAがすっかり忘れてしまっていたことが露見した。ミラーの言葉を借りれば、『フォーマットを知っていたプログラマーは、全員引退したか亡くなっていた』」。(慶應義塾大学DMC訳「ザ・デジタル・ジレンマ」より)

 この事件は、「デジタル情報(データ)の消滅」と呼ぶ危険に対する重要な警鐘となりました。 その後、米国では、システマティックにデータ移行を行うことにより連邦政府内のデータ資産を保護することを目的として、Open Archival Information System(OAIS、開放型アーカイブ情報システム)と呼ばれるものが提唱され、現在ISOの標準規格になっています。

 現在、世界で最もデジタル情報の保管性に関心を持っている組織はおそらくハリウッドの映画業界だと思われます。ハリウッドでは、オリジナルのカメラネガから最終版の公開プリントまで、何ひとつ捨てずに、全ての映画フィルムをマイクロフィルムで保管していると言われています。100年以上安定して保存できるストレージ(記録媒体)は、現在マイクロフィルムしかないからです。このデジタル時代にアナログデータで保存しているとは全く情けないことですが、これが現実です。 まさに「ビッグデータ(情報爆発)時代におけるデジタル情報持続性の危機」と言っても過言ではありません。

 私たちが現在保持している人類のデジタル文化遺産、知的蓄積データ、公文書などを千年後に確実に見ることができるでしょうか? また、技術進歩により記録の保管システムが新しい方式に置き換わり、旧方式が利用できなくなることはないのでしょうか? デジタル情報(データ)の恒久的保存と読み出しが可能な技術が確立されなければ、貴重な人類の歴史が永遠に失われてしまうことにもなりかねません。手遅れにならないうちに、超長期保存メモリシステムを開発することが、今求められています。

 超長期保存メモリの必要性は、文化遺産だけに止まりません。米国では法律で患者のデータを死後2年まで保管することが義務付けられています。つまり2歳の子供が80歳まで生きると、2歳のときの医療データは80年間保存しなければなりません。この場合、レントゲン写真などのイメージデータの圧縮は認められていません。生死に関わる医学的決断に用いられる可能性があるからです。

 昨年の東日本大震災に関連して、「低線量放射線被爆」のデータも数十年の追跡データが必要ですし、地震そのものの情報は映像も含めて500年から1000年単位の保存が必要です。ナショナルセキュリティの観点で、今後増加することも予想される領有権問題などの「歴史戦争」に対する備えからも情報(データ)の超長期保存は必要です。

 現在デジタルデータを保存できるストレージの寿命は10年オーダーです。さらに都合が悪いことには、ストレージの寿命はかなりのバラツキがあります。ハードディスクの故障率が製品ごとに大きなバラツキがあることは、皆さんもご存知の通りです。したがって、データ情報にエラーが生じる前にコピーをする「マイグレーション」が行われています。マイグレーションは通常、5年〜10年ごとに記憶媒体をシステムごと更新しています。しかし情報量が指数関数的に増加するビッグデータ時代に、必要なデジタルデータを数年に一度コピーをすると、そのコピー量は急速に増大し、いずれ破綻することは目に見えています。つまり、トータルな保管コストの問題も考えなければいけません。将来に残せるデジタル情報量は、保管コストに反比例するからです。

 超長期保存を可能にするメモリは、デバイスとして見た場合、基本的に下記の2つの要件を満たす必要があります。

  1. 将来に亘って測定可能な2つの状態が超長期間維持できる物理原理が存在すること。
  2. 上記の物理原理を維持する実態としての構造体、物質(材料)が超長期間変化しないで壊れないこと。

 ただし、超長期保存可能なメモリデバイスだけを実現しても、意味が無いことは明らかです。データの保管とは、単にデータが残っているだけの状態を指すものではなく、必要なときにデータの意味を正確に理解できなければなりません。紙に書かれたデータやマイクロフィルムに記録されたデータは、見ただけである程度理解できます。しかし、ビット列から成るデジタル情報は、それだけで意味を理解することは不可能です。データの意味を理解するデータ(「データのためのデータ」=メタデータと言われるもの)が必要になります。

 つまり、超長期保存メモリを開発するということは、単にメモリデバイス単体を開発することではなく、システムやデータのフォーマット、インターフェース、データ管理に関するファイルシステムの検討なども含めた、まさにトータルなメモリシステムを開発することになります。さらに、デジタルデータは容易に変更することが可能ですが、可変性の裏返しであるデータの真正性の保障という問題も出てきます。これは技術的な課題であるとともに制度的・社会的・倫理的な問題をも提起します。データ保存様式の標準化を含めて社会全体で考える必要があります。

 米国にインターネット・アーカイブ(Internet Archive)という団体があります。この団体は、「WWWのスナップショット」と呼ばれる、ある時点においてインターネットで流れた世界中のウェブページのコピーを全て保存しています。通常、HPを更新すると古いウェブページは見ることができませんが、この団体は古い全てのデータを保存しています。因みに、当時は「科学技術振興事業団」と呼ばれていたJSTの1996年のHPを見ると、日の出の富士山を表紙にしたJSTニュース創刊号(No.1 1996-10)が掲載されています。全てのデータを取捨選択することなく長期保存するという、この奇想天外な発想が、もしかすると将来ビッグビジネスにつながるかもしれません。

 私たちが、あらゆるデータを猛烈な勢いでデジタル化するに対抗するように、データの保管の課題が次々に出てきます。まさに「デジタル・ジレンマ」の時代に入りつつあります。今後のビッグデータ(情報爆発)時代に備え、この「デジタル情報持続性の危機」を克服することを目的として、科学技術振興機構(JST) 研究開発戦略センター(CRDS)では、平成24年度「新原理メモリチーム」を発足させ、この超長期保存メモリシステムの課題に取り組み、21世紀の「ロゼッタストーンメモリ」を実現すべく、何らかの提言をしたいと考えています。

ページトップへ