Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SSII2026 [TS2] 日本古典文化とAI ~ データセットからアプリケーションまで~

SSII2026 [TS2] 日本古典文化とAI ~ データセットからアプリケーションまで~

More Decks by 画像センシングシンポジウム

Transcript

  1. 5 万法料理秘密箱卵百珍 (国文学研究資料館 ) 1. 卵鍋に生卵を割り入れ、厚さ 1分(3mm)程の薄焼卵を焼 く。 2. 太めの蓮の皮を剥き、よく茹

    でてから、水を切る。 3. 薄焼卵に生卵の白身を塗 り、小麦粉を振る。 4. 蓮根を薄焼卵の上に置き巻 きしめる。薄焼卵の端に卵の 白身を塗る。 5. 蓮根の穴に生卵の白身を流 し込む。 6. ⑤を遠火で炙る。 7. 火が通ったら、よく冷まして 切る。
  2. 出典:国会図書館蔵『猿猴庵随観図絵』高力種信(1756〜1831) 6 七月二十八日の夕方、北の空が薄赤く、遠 方の火事かと噂するうちに、次第に色が濃く なり、夜に入って明るいことは月夜のようで ある。戌の刻(午後8時頃)ごろから赤い気 がひどくなり、その中に竿のような白い筋が 幾すじも現れ、空の半分に覆いが広がり、 西から東に広く白い気が数多くある。地面一 面が真っ赤で、人々は驚き騒ぎ、その土地

    の生祠で神楽をあげ、あるいは念仏を唱え て、生きている心地がしない。「これは世が 終わるのか、火の雨でも降るのではないか」 と、屋根に水をかける者もあり、高い所に 登って見ると、赤い気の中に物が煮えるよう な音が聞こえる。夜明けには、東西に分か れるようにして消えた。 (Translate by Sakana Chat Namazu)
  3. The Great Ansei Earthquake, Edo city, 1855 - Tokyo Metropolitan

    Library - Tokyo Shiryo Collection 7 天地の気が調和せず順わないときは、陰の気が地中に満ちて、一気に噴き出す。これを地上では「地震」と言い、海上では「津波」と 言う。山中で発するときは洞窟が抜け落ちるためである。すべて風雨不順のなせるわざであり、恐るべき大事である。ここに安政二年 (1855年)乙卯の冬、十月二日の夜四つ時(午後十時)過ぎのころ、東国においては肉声も絶えるほどの激震が襲い、まさに風前の 灯のごとくであった。その中でまず御府内(江戸市中)の焼亡の地を記す。千住から塚原まで地震の届かぬところはなく、一時に金坊 を崩し、人命も残らず失われた。千住宿は大半が崩れ、山谷橋は残らず崩れ、今戸橋際では数十軒が焼けた。新吉原は五丁とも残ら ず焼け、焼死人はおびただしかった。田町一丁目・二丁目、山川町、浅草竹門、小万道、聖天横町、芝居町三町、北谷中谷の守院 南、馬道から花川戸にかけて半町ほどが焼けた。山の宿町から杉木辺りは残らず崩れた。駒形町の中頃から出火し、諏訪町・黒船町 は崩れた。御馬屋・聖天町も崩れた。浅草寺は無事であったが、雷門の雷神像が揺るぎ、広路の並木辺りも崩れた。河岸にて焼け止 まり、御蔵前・第六天町辺り、富坂町・森下辺りは大破した。東の方では心菊屋橋際の新寺町・新堀ともに少し焼けた。大音寺から三 ノ輪・金杉辺りが崩れ、坂本は三丁目が焼けた。山崎町・東坂・広徳寺前も崩れた。また山本仁太夫の家来のうち死人が多く、家は残 らず崩れた。その外の寺院も大破・損亡おびただしかった。谷中・三崎・千駄木・西片込は崩れがひどく、根津門前は大半が崩れた。 池の端・茅町二丁目の境から稲荷の向こうより一丁目にかけて、御記屋町は大崩れとなった。小路の東側は中程から伊東松坂屋の 角まで、木戸際にて留まった。切通しの坂下は大崩れ、仲町は片側の町が崩れ多く、両側ともすすけて広がった。上野町から長者町 辺りが焼け、御徒町近辺から三味線堀・七曲がりにかけては大名方の記屋敷とも崩れたとはいえ、多分の損失であった。御成通りが 崩れ、神下は破れが多かった。神田の町家は崩れが少なく、湯島天神は崩れが少なかった。門前町は崩れが多く、妻恋町は少しも崩 れず、稲荷の社は無事であった。本郷はその辺りの破損は少なかった。筋違御門から日本橋通りの左右、神田の東西ともに崩れが 多かった。小川町・本郷の松平紀伊守様・板倉様・戸田様の屋敷が焼けた。神田橋内の酒井雅楽頭様、同じく御向かいの屋敷、龍之 口角の森川出羽守様、また一つ下ると八代洲河岸の植村但馬守様、因州様の御屋敷などであった。和田倉御門内は松平肥後守様・ 松平下総守様が焼け、近所も崩れ、その外丸の内の御大名方の所は崩れが多かった。鍋島様の御屋敷も残らず大きな損害を受け た。幸橋内の松平甲斐守様・伊東様・良井様ともに焼けた。藩州様の屋敷も焼けた。残らず焼けた山下御門内の阿波様のところも崩 れとなった。愛宕下から諸家様は大半が崩れ、黒田様の御物見が残った。永田町・三笠家・麹町辺りは崩れがひどかった。四ツ谷・ 市ヶ谷・牛込・小日向・小石川・番町辺りも荒れて横死した者が多かった。赤坂・青山・麻布・渋谷・白金・品川・高輪・台町ともに崩れは 少なかった。赤羽根・三田・飯倉・麻布久保は崩れが多かった。増上寺辺りも外の寺院の損亡が甚だしかった。法恩寺橋から本所は 中の郷の松平周防守様が焼け、この辺りは大崩れにて所々から出火があった。同所の番場町・弁天小路も焼けた。御蔵前町から泉・ 八名川町・六間堀・森下町・高橋にて町家が焼けた。亀戸町は二ヶ所焼けた。また竪川通りは桐生町・緑町・三ツ目・花町も焼けた。ま た船留りから下口は深川相川町から柔江町・大島町・浜栗町・永代寺門前町で、八幡宮の鳥居際にて止まった。また乙女橋向こうの 南大川端は少し焼けた。本所・深川はなべて地震が強く、死亡者はおびただしかった。日本橋から南の東西中通りも河岸通りも共に 大崩れであった。南伝馬町二丁目・三丁目の左右河岸から京橋・川通りまで焼けた。木挽町・桜田・久保町・愛宕下は崩れが多く、芝 口通りは少しであった。明神町・三島町は大崩れで怪我人が多かった。神明宮は恙なく、松手御屋敷は残らず傷んだ。門前・片門前・ 浜松町・金杉・本芝・露月町が崩れ、柴井町が焼けた。神明辺りは崩れが少なく、田町・大木戸から品川方面は格別の崩れはなかっ た。羽生(はぶ)より三日から七日、揺れが続いたが、格別のことはなく、追々静穏に及んだ。下々へは御救いをと、御救い小屋を三ヶ 所にお立てになり、御仁徳の国恩を拝謝し奉らぬ人はなかった。まことにありがたきことである。ただし、出火が止められたのは十六ヶ 所であったが、焼けたところは原のごとし。火の用心すべし。
  4. Alice's adventures in wonderland (1894 edition) by Carroll, Lewis, 1832-1898

    (archive.org) 『春色梅児与美』 (1833年版) 為永春水 (1790-1844) (国語研蔵) 10
  5. RURIは国文学研究資料館、国立国語研究所が作成し、ROIS-DS人文学オープンデータ共同利用センター(CODH)が公開するくず し字データセット、みんなで翻刻データセットを学習している。 21 くずし字認識モデル「 RURI」:物体検出 蕷坤和順せざるときは陰地中に満て一時に発す是地上に地へ人といひ海上に津浪といふ 山中に発する時は洞のぬけたゝめ皆風雨不順の為す所にして恐るべきの大叓なる于茲安 政二年乙卯冬十月二日夜四ツ時過るころ肉東の国とはにを絶と風前のともしびの如し其中 に先御府内焼亡ノ地は千住に塚原地震のとゝかさるをなく一時金坊を崩し人命不残焼け子 住宿は大半崩れ山谷橋いのこらす崩れ今戸橋きは数十軒やける新吉原は五丁共不賎焼

    死人おびたじしく田丁壱丁目弐丁目山川町浅草竹門小万道聖天横町芝居町三町北谷中谷 の守院南馬道ゟ花川戸半町程やける山の宿町ぎすレ木辺残らす崩れ駒形町中頃ゟ出火 諏訪町黒船町御馬や聖天町は崩る浅草寺は無事にて雷門の雷神ゆる出広路並河岸ニて やけどまる御蔵前第町辺富坂町森下辺大破東門以心な菊屋橋きは新寺町新堀共少しや ける大音寺ゟ三の輪金杉辺崩れ坂本は三丁目やける山崎町東坂広徳寺前導崩わん又は 山本仁太夫失来内死人多し家不残崩る其外寺院大破損亡おびただし◦谷中三崎子駄木西 込は崩にし根津門前は大半崩池の端茅町弐丁目境いなり向よりや壱丁な御壱記や町は大 崩小路東がは中程ゟ伊東松坂屋角迄木戸際にて留る切通を坂下大崩仲町は片側丁崩多 く両かはすすく広上野町ゟ長者町辺やける御徒町近辺ゟ三味せん堀七まがりは大名方記 屋敷共崩るといへとも多分のとし御成通崩神下破れ多く卯神田町家の分崩少湯島天神は 崩少し門前町崩多く妻慈町少しも不崩稲荷の社無事也本郷其破様外は少し筋違御門ゟ日 本橋通り左右神田東西共崩多し小川町本郷様松平紀伊守様板倉様戸田様やける焼神田 橋内酒井狂架頭様同御向やしき竜之口角森川出羽守様又一下ト口は八代洲河岸植村但 馬守様因州様御硝等なり和田倉御門内は松平肥後守様松平下総守様やける近所崩れ其 外丸の内御大名方所崩多し鍋島様御屋敷らす大と夫幸橋内柱平甲斐守様伊東様良井様 共やける藩州様装東屋敷家る不残やける山下御門内阿都様のこ崩なりゟ露関は諸家様大 半くづれ黒田様御物見のこる永田町三写家かうじ町辺は崩にし四ツ谷市ヶ谷牛込小日向 小石川番町辺あれも横亡おほし赤坂青山麻布渋谷白浪品川高輪台町共崩少し赤羽根三 田飯倉物久保は崩多シ増上守へ年辺け外寺院損亡気法恩寺橋◦地本所は中の郷松平周 防守様やける此辺大崩にて所々ゟ出火あり同所番場丁弁天小路やる其御蔵前町ゟ泉八 名川町六間堀森下町高橋にて町家やける亀戸町二ヶ所やける又竪川通りは桐生町録町 三ツめ花町よやける又船留る又下口は深川相川町ゟ柔江町大島町はまくり町永代寺門前 町八幡官鳥居きはにて止る又乙女橋向南大川端少しやける本所深川なしなへて地震つよ く校亡おびたしし〇日本橋ゟ南東西中通か河岸通る共大崩ゝて南伝馬町弐丁目三丁目左 右川岸京橋川通る迄やける浪座町三十間堀尾張町辺少したるみ新橋向饒地木挽町桜田 久保町あたご下崩れ多芝口通少しれ町明町三島町大崩怪我人今筆神明官恙な漬手御屋 敷残すいたむや門前片門前漬松町金杉本露月丁崩柴井やける神芝辺崩少し田町大木に 品川香拾別の崩な羽生三郎ゟ七日上明日しづらふるひけれ共別にさつるヿなく追々静鑑 におよひ下々へは御救をと下置御救小屋三ヶ所へ御立候下御仁徳のぬ国恩を拝謝し奉ら ん人こそなかりけれあらありがた事共なり但シ出火のせつるられ十六なれともやけるところ は原のことし火の用心し
  6. みを:AIくずし字認識アプリ 25 • 「みを」は、2021年8月末の公開。 • 人文学オープンデータ共同利用センターが無料 で提供している。 • ダウンロード回数25万回以上。 •

    一日平均利用回数2100回以上。 • 現在まで累計約350万枚の画像のくずし字認識 を行った。 • 社会にはくずし字を読む高い需要があることを 示した。 2022年10月7日にグッドデザイン賞(システム・サービス部門)を受賞した。
  7. みんなで翻刻データ (人間が作ったテキスト) 1200万文字 CODHの くずし字データセット (人間が作ったテキスト) 100万文字 CODHの 日本古典籍データセット (1008冊、文字認識AIが作っ

    たテキスト) 1200万文字 合計:2500万文字(一般の大規模言語モデルの学習データは 数千億文字が必要) 大規模言語モデル「からまる」: Elyza8Bから継続学習 ベースモデルは、株式会社ELYZA が開発した現代日本語に特化した 「Elyza 8B」モデル 29 からまるモデル 古典籍 RURI くずし字 OCR Refiner
  8. 32

  9. 6. Azabudai Hills Project 45 OpenMeteo JMA 予測データ AmeDAS 地域気象観測

    システム 画像選択 Display Prompt作成 約470天気パターン Evo-Ukiyoe-v2 〜7500枚
  10. 49

  11. AI for DA : Evo-Ukiyoe-v2で古典籍を可視化 CODH古典籍データセット『除蝗 録』 じょこうろく 古典籍可視化 エージェント

    !!AIで生成された画像 文政9年に大蔵永常が著した蝗害対策の実用書です。享保・天明年間の飢饉の経 験から、イナゴなどの害虫を鯨油で駆除する方法を詳しく解説しています。 気候と 害虫発生の関係、油の種類と効果の違い、田への油の撒き方、作業の時刻や手 順まで、具体的な実践方法を図入りで紹介します。西国では既に実践されていた 技術を東北地方にも広めるために執筆された、飢饉を防ぐための農業技術書で す。佐藤一斎の序文も収録されています。 52
  12. 仮名消息 芳春院筆仮名消息 (慶應義塾大学斯道文庫蔵) 57 https://objecthub.keio.ac.jp/object/561 芳春院〈ほうしゅんいん・1547-1617〉は金沢藩 祖・権大納言前田利家〈まえだとしいえ ・1537-99〉の正室。本名まつ。永禄元年 〈1558〉12歳のとき、20歳の利家と結婚。慶長 4年〈1599〉閏3月3日に利家が死去。その直 後に出家して尼となり、芳春院と号した(53

    歳)。また京都紫野の大徳寺内に芳春院を建 立した。この頃利長と徳川家康の間が険悪に なり、芳春院は自ら人質として江戸に下った。 以後、慶長19年〈1614〉6月まで(68歳)、足掛 け15年間の江戸暮らし、71歳で金沢にて没し た。この手紙は、前田家家臣・村井長次〈むら いながつぐ・通称出雲・1568-1613〉に宛てたも の。時に芳春院は64歳であった。流麗な筆致、 数少ない女性の手紙として注目すべき一通で ある。文末の署名「はう」は、芳春院の略であ る。
  13. 60 人間(私)の決めた読み順のルール 1. 起点(書き出し) 最初の文字は右端から 手のひら 1つ分ほど内側にあり、最も大きく目立つ。最右端からは始めない。 2. ブロック=直角三角形 各文字ブロックはほぼ直角三角形(右下が直角、右辺は垂直・底辺は水平・斜辺は左上へ)。

    3. 文字高は3段階 文字の高さは3段階あり、位置ではなく「高さ」で所属が決まる。 第1群=最も大きい本文、第 2群=やや小さい、第 3群=最上部のごく小さい文字。 4. 3巡で読む 第1巡=ブロック1から左端へ流れる。 第2巡=右側に残した小さな塊を埋める。 第3巡=最上部の小さなブロックを右 →左で読む。 5. ブロック内=縦書き 6. 縦の間隔で区切る。縦の間隔が小さいときだけ連続して読む。 7. 厳密ではない(目安)これらは厳密な規則ではなく視覚的な目安。実際の文字は正確な三角形や等間隔 にならない。許容範囲は学習( fitness)が教える。
  14. 61 推論時スケーリングでコードを探索: Beam Search Test-time Scaling:モデルに一発で答えさせるので はなく、推論時の計算を使ってプログラムの空間を 「探索」する。 LLMを変異オペレータ(mutation operator)にした

    ビームサーチ: • 良いプログラム群(ビーム)を保持する。 • 各ステップで、親プログラムとその「失敗した ページ」をモデルに渡し、より良い子プログラ ムを書かせる。 • 各子をNEDで採点し、上位を残して繰り返 す。 • 変異を駆動するのは fugu-ultra。 一言で言え ば、モデルの役割は「答えを知っていること」 ではなく「これがプログラム、ここが失敗箇 所」を「これがより良いプログラム」へ変換す ること。 • 「読み順のルール」を、探し出す対象の Pythonプロ グラムとして扱う。 • 入力=各文字のBounding Boxes(x, y, w, h)+ ページサイズ、出力=読み順を表す並べ替え(順 列)。 • Fitness=NED(Normalised Edit Distance, 1 −Edit Distance/n)を専門家の正解(GT)と比較 する。 • データはごく少量:手作業で注釈した訓練ページは 25枚のみ。 • このレイアウトを何も知らない汎用の段組み予測 器。初期NED 0.109。
  15. 63 資料に扱った Sakana AIのプロダクト、オープンソースモデル、共同開発アプリ • CODH、共同開発アプリ「みを」:AIくずし字認識アプリ ◦ https://codh.rois.ac.jp/miwo/ • Sakana

    AI:Namazu (Sakana Chat) ◦ https://chat.sakana.ai/ • Sakana AI:Metom ◦ https://huggingface.co/SakanaAI/Metom • Sakana AI:Karamaru ◦ https://huggingface.co/SakanaAI/Llama-3-Karamaru-v1 • Sakana AI:Evo-Ukiyoe-v2 (近日公開) ◦ (v1: https://huggingface.co/SakanaAI/Evo-Ukiyoe-v1 ) • Sakana AI:Sakana Fugu (近日公開) ◦ https://sakana.ai/fugu-beta/