【文理融合】の第4回は「AIと歴史学」。2024年、熊本大学とTOPPAN(トッパン)は独自のAI技術を用いて、歴史資料「細川家文書」のうち約90年分の史料の解読とデータベース化に成功した。専門家でも解読が難しい「くずし字」を、高精度で読めるうえに検索機能を備えたAIは、歴史学をどのように変えていくのだろう。歴史学の側から共同研究を率いた稲葉継陽さん(熊本大学永青〈えいせい〉文庫研究センター長、教授)に、今回の研究成果とこれからの歴史学について現地で伺った。

熊本藩の歴史資料「細川家文書」が伝える歴史
―「細川家文書」とは何ですか。
熊本藩を治めていた肥後細川家に伝わる歴史資料です。その量は膨大で、古文書や古典籍など約5万8000点にのぼります。同家が東京都文京区の下屋敷跡地に設立した美術館「永青文庫」の所蔵品ですが、1960年代に熊本大学に寄託されました。いまは熊本大学附属図書館で管理しています。
「細川家文書」を専門に研究する機関が「熊本大学永青文庫研究センター」。2009年の設立に伴い、私がセンター長に就任しました。

―永青文庫といえば、新たに見つかった織田信長の手紙を公開していましたね。
永青文庫には59通もの織田信長の手紙が残されていて、いずれも国の重要文化財に指定されています。2022年の調査で、所蔵品の中から60通目の手紙が見つかりました。室町幕府滅亡の前年にあたる元亀3(1572)年、信長が肥後細川家の初代藤孝(ふじたか)に宛てたものです。24年10月5日から12月1日まで、全60通の手紙を公開しました。

―その手紙からわかったことは?
60通目の手紙は、八朔(はっさく/8月1日)の祝儀の礼状であり、京都周辺の領主たちの組織化を依頼するものでした。他の手紙と合わせて読み解くと、信長が古い室町幕府を容赦なく切り捨てて新しい時代を切り開こうとしたのではなく、当時の常識のもとで幕府を立て直そうとしていたことが浮き彫りになってきます。歴史が大きく動いた要因を信長だけに求めず、あの時代をもっと大局的に捉え直すことにつながるといいですね。
独自のAI技術で解読精度は70%
―そもそもなぜ、「細川家文書」をAIに読ませたのでしょうか。
きっかけは、TOPPANからのご相談でした。自社で開発した「くずし字AI-OCR」を使って「細川家文書」を解読したいと。TOPPANは、日本における凸版印刷のパイオニアであり、日本の印刷文化を牽引してきました。かつては印刷に欠かせなかった活字組版(金属の文字型を配列した印刷用の板)が、1990年代以降はデジタルデータに置き換わりました。
無用の長物になりかけた活版印刷を後世に伝えていくため、光学文字認識(OCR)事業を始めたのだとか。その技術が発展してきて、「くずし字が読めるようになったらすごいよね」ということで、2015年から「くずし字AI-OCR」の開発に取り組み、23年にはスマートフォンの古文書解読アプリ「古文書カメラ®」を発表しました。
―AI-OCRとはどのような仕組みですか。
AIを活用したOCR技術なのですが、おおまかに言うと、画像から文字を認識してテキストデータにしていきます。古文書に書かれた文字、いわゆる「くずし字」は、点や画を省略されているうえに文字が連なり、一つひとつの文字を判読するのは容易ではありません。TOPPANのくずし字AI-OCRでは、文字の塊を矩形として検出してから、文字と文字の区切り位置を見極め、最終的に一つずつの文字として認識します。
―AI-OCRは歴史学者と同じくらい古文書を読めるのですか。
いまの解読レベルは大学院生ぐらいですね。文字認識精度は70%ほど。「細川家文書」は専門家でも解読が難しい史料ですから、上々の出来でしょう。しかも、当センターの後藤典子特別研究員が先生となって、AIに正しい読み方を再学習させていますから、精度はさらに上がるかもしれませんね。

約90年分の史料を延べ20日間で解読した
―今回、AIが読んだ史料について教えてください。
「細川家文書」のうち、肥後細川家の奉行所の執務記録『奉行所日帳』約4万7000枚、初代藩主・細川忠利の口頭での命令をまとめた『奉書』約2500枚、参勤中の忠利が国元の家老らに発した書状の写しをまとめた『御国御書案文』約1200枚、小倉藩・熊本藩の惣奉行衆から各業務を担当する奉行らに発せられた書状の写しをまとめた『方々への状控』約1200枚の計5万1843枚です。これは江戸初期の約90年分の記録で、「細川家文書」全体の1.8%ほどに当たります。
―90年分!? AIはずいぶん膨大な史料を読みましたね。
延べ日数わずか20日間で読みましたから、とんでもない速さですよね。人間が1枚1枚めくりながら読んでいくと、どれだけの年月がかかることか……。ただ、「くずし字AI-OCR」は、人間が史料を写真に撮って画像データにしてあげないと読めませんけれど。そして、文脈で読むのは苦手です。例えば、「跡目」ときたら「息子」と続くだろう、人名で「永」ときたら家臣の「永良」だろうと、私たちは予測して読んでいます。それがAIには難しいので、人間ではありえない読み間違いをすることも。
廃藩置県・空襲を切り抜け、奇跡的に残った記録
では、永青文庫が所蔵する現物を見てみましょうか。この分厚い冊子が『奉行所日帳』です。毎日の記録を1年分まとめて1冊に綴じています。

例えば、この日だと……日付の下に担当者の名前があって、「松平大隅守様江(へ) 御書箱壱つ…」なので、島津家に手紙箱を送った記録で、使者の印鑑まで押してありますね。これは、「七夕御礼付而御花畑御門内江(へ)供之者召連被申候覚」なので、七夕の行事があるから花畑屋敷(肥後細川家の屋敷)に家臣たちを連れて行ったと。恒例行事を先例どおりに執り行わなければいけないので、記録しておくわけです。

―これらの記録は、どの藩にも残っているのですか。
どの藩もさまざまな記録を取っていたはず。でも、100年にわたる藩の記録がごっそり残っているところはあまりなくて、熊本藩と山口藩(長州藩)、岡山藩の3つですね。
まず、廃藩置県。諸藩の記録は府県に引き継がれました。地図類や土地台帳は、新たな地方制度においても参照されることがあるから府県は手放しません。しかし、奉行所の記録はもう必要ないから処分する。だいたいは民間に払い下げられて散逸してしまいました。次に、第二次世界大戦。空襲で燃えてしまったものも少なくありません。
ところが、肥後細川家の家臣たちは、藩の記録類を残したいと、県からの払い下げを受けた記録類を蔵に保管しました。それが戦火を免れ、奇跡的に残っているというわけです。
キーワードの「洪水」と「飢」に相関関係
―「細川家文書」のテキストデータ化による成果を教えてください。
今回、「細川家文書」の一部とはいえ、テキストデータ化できたので、全文検索システムと連携させてキーワード検索ができるようになりました。検索ボックスにキーワードを入力してボタンを押すと、3秒ほどで検索結果が表示されます。年代順に、史料名と該当ページ、簡単な内容がリストで一覧できるうえに、閲覧したい史料をクリックすると、そのページを表示できる優れものです。
今回の共同研究では「洪水」「飢」という2つのキーワードから、洪水と飢饉の関係を調査しました。予想どおり「洪水」と「飢」には相関関係がありました。洪水が起きて農作物と田畑が壊滅すると、その年あるいは翌年に飢饉が発生する。例えば、延宝4(1676)年は「洪水」が異常に多く、19件ヒットしました。一方の「飢」も同年に集中しています。
その前後の年に注目してみると、「飢」は延宝8(1680)年・9(1681)年にまた急増しています。このタイムラグの原因はおそらく、延宝4年の大洪水以降も年貢米を大坂米市場で売り続けたこと。当時から肥後米は人気がありましたから。なかなか田畑と生産力が回復しないなか、洪水の4、5年後にいよいよ領内で食べるための米や備蓄米も底をついたと考えられます。熊本藩は豊かで飢饉はないと思われていたので、今回の調査は、知られざる「延宝の大飢饉」の発見につながりました。
そこで、延宝9年の「奉行所日帳」を読んでみると、多くの百姓が百姓でいられなくなり、城下町にやってきたことがわかります。熊本藩は何をしたか。彼らに粥施行(かゆせぎょう)、つまり粥を施しました。領民たちを飢えから救い、生かすために、物的・人的資源を集めて、「役割所」を新設して役人を配し、さまざまな手を打っているのです。西欧からの輸入と思われていた「社会福祉」が、江戸前期には日本で芽生えていたのかなと。
このような事態は熊本藩以外でもおそらく起こっていて、そのときの幕府や諸藩の対応が、「寛文・延宝期(1661〜1680年)に幕藩体制が確立した」という通説の正体ではないかと、考えています。

自然災害に着目したきっかけは熊本地震
―なぜ「洪水」と「飢」に着目したのでしょうか。
古文書に残された「洪水」「地震」などの自然災害に着目したきっかけは、2016年の熊本地震です。それまで熊本は、日本列島にあって地震の少ない土地といわれていました。その神話が脆くも崩れたわけです。そのショックと余震の続くなかで、特別研究員の後藤さんが「細川家文書」の中の地震を調べ始めました。その調査で、江戸初期に頻発した地震によって熊本城が被災し、その修繕に苦心していたことが明らかになります。このとき、歴史資料というのは、それを見る者の関心によって見える情報が全く異なるのだと改めて実感しました。
もう一つ、歴史学会の動向としても自然災害に注目が集まっています。1990年代にマルクス主義に立脚する発展史的な歴史学が揺らぎ、95年の阪神・淡路大震災を経験しました。その後も地震や大雨による被害が続くなか、2000年代になって歴史の中の自然災害が本格的に研究されるようになりました。

そうした背景があって、江戸時代の統治権力あるいは社会が、自然災害にどう対応したのか、その情報を収集して明らかにしていくことが、歴史学で最優先されるべきテーマだろうと考えました。そこで、近年、全国的に被害の多い「洪水」を調べてみたのです。
歴史学の研究手法が変わる可能性
―AIが古文書を読み、膨大な史料がテキスト化され、キーワード検索ができるようになると、歴史学の通説が覆るかもしれないのですね。
膨大な古文書が残されていても、人間が解読できる量には限界があって、これまではせいぜい数年という短いスパンの出来事しか見えていませんでした。これからは、「くずし字AI-OCR」と全文検索システムを用いて、長期にわたる社会の変化、「洪水」「地震」などの事象の集中と分散、それと関連する事象を丹念に見ていけば、新たな発見があるはずです。それは、通説の読み直しにもつながるでしょう。

この全文検索システムは、面白いですよ。指1本で90年を通覧できますから、その情報をもとにいろいろな仮説を立てられます。それから、該当する史料を精査していけばいい。歴史学の研究手法はかなり変わっていくのではないかと思います。
私たち歴史学者は、ますます精進しないといけませんね。この相棒に解読を任せて、仮説の立案と検証を重ね、日本の歴史に内在している伝統的な価値観を解き明かしていきたいです。
―いま注目しているキーワードはありますか。
飢饉との関連では、「旱魃(かんばつ)」「日照り」を調べていくと、当時の事情がもっとわかるかもしれません。
後藤さんは「地震」のほか、熊本銘菓「加勢以多(かせいた)」を検索していましたよ。『奉行所日帳』で35件ヒットしたらしく、それを読み解いたところ、ポルトガルから伝来したお菓子で、肥後細川家が贈答品としていたこと、のちに藩内で製造するようになり、原材料のマルメロの栽培まで手がけていたこと、そのマルメロがいつしかカリンに変わったらしいことなど、興味深い発見がありました。面白いですよね、たくさんの史料を網羅的に調査することで地元の食文化の起源までわかるのですから。

誰もがアクセスして自分で読めるように
―これからの目標をお聞かせください。
世界中を見渡しても、日本の近世ほど多くの書類が作成された地域はないと言っていいでしょう。当時は為政者から庶民まで、くずし字の読み書きができたけれど、いまはほとんどの日本人が読めません。それでは歴史資料の価値がわかってもらえず、宝の持ち腐れになってしまいます。
だからこそ、全文検索機能付きのくずし字AI-OCRは万人に開かれるべきものだと考えています。「細川家文書」は永青文庫の所有物ですが、やがて国の重要文化財に指定されますから、誰もがアクセスして自分で読めるようにしたいですね。その史料が大事なものだと多くの人が認識すれば、後世に伝えていこうと思えるはずです。また、昨今は根拠のない情報が氾濫しているので、根拠となる史料に基づいて意見を述べるという態度が養えるといいですね。

関連リンク
- 熊本大学 永青文庫研究センター
- 永青文庫
- TOPPANホールディングス「熊本大学とTOPPAN、くずし字AI-OCRを活用した古文書の大規模調査のための独自手法を開発」