Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SSII2026 [TS2] 日本古典文化とAI ~ データセットからアプリケーションまで~
Search
画像センシングシンポジウム
PRO
June 10, 2026
460
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
SSII2026 [TS2] 日本古典文化とAI ~ データセットからアプリケーションまで~
画像センシングシンポジウム
PRO
June 10, 2026
More Decks by 画像センシングシンポジウム
See All by 画像センシングシンポジウム
SSII2026 [SS1] 作業動画理解 〜基盤モデル時代の応用と課題〜
ssii
PRO
0
630
SSII2026 [SS2] CADにおけるAI分野の動向と製造業 への実適⽤
ssii
PRO
1
1.2k
SSII2026 [PT1] アクセラレーテッド・コンピューティングが切り拓く知能の最前線 ~生成AIからエージェンティックAI、そしてフィジカルAIへの進化~
ssii
PRO
0
590
SSII2026 [PT2] 記号創発ロボティクスとフィジカルAIの展開 〜集合的予測符号化が繋ぐ言語と身体の時空間階層性〜
ssii
PRO
0
610
SSII2026 [OS1] 計算機インフラどうしてる?
ssii
PRO
0
350
SSII2026 [OS1-1] 機械学習のための計算基盤の開発
ssii
PRO
0
340
SSII2026 [OS1-2] 学術クラウド基盤mdx IIの 設計と運用
ssii
PRO
0
340
SSII2026 [OS1-3] 実験室自動化を目指した 計算機との試行錯誤
ssii
PRO
0
310
SSII2026 [OS2] 産業界における生成AIの利活用
ssii
PRO
0
580
Featured
See All Featured
Practical Orchestrator
shlominoach
191
11k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
55k
So, you think you're a good person
axbom
PRO
2
2.1k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
6k
Building a A Zero-Code AI SEO Workflow
portentint
PRO
0
610
Scaling GitHub
holman
464
140k
Skip the Path - Find Your Career Trail
mkilby
1
150
16th Malabo Montpellier Forum Presentation
akademiya2063
PRO
0
150
Ten Tips & Tricks for a 🌱 transition
stuffmc
0
140
Building the Perfect Custom Keyboard
takai
2
800
Automating Front-end Workflow
addyosmani
1370
210k
Stewardship and Sustainability of Urban and Community Forests
pwiseman
0
230
Transcript
日本古典文化とAI ~ データセットからアプリケーションまで~ 2026.6.11 カラーヌワット・タリン (Sakana AI) 1
2018年3月 早稲田大学大学院文学研究科博士課程修了(文学) 専門は中世『源氏物語』の注釈書。 2017年9月 東京大学大学院総合文化研究科広域科学広域システム科学系で くずし字認識の研究開始(特別研究学生、2018年3月まで) 2018年4月 ROIS-DS人文学オープンデータ共同利用センター(CODH)、 国立情報学研究所の特任助教。 2018年9月 くずし字認識モデル、KuroNetを開発。 2019年7月 Kaggleくずし字認識コンペを開催。 2021年8月 くずし字認識スマホアプリ「みを」を公開。 2021年9月 Google
Research, Brainチーム。Senior Research Scientist 2023年6月 Google DeepMind。Senior Research Scientist 2024年2月 Sakana AI、Staff Research Scientist 2 自己紹介
1.古典籍とくずし字 3
20億点以上 人口の0.01% しか読めない 4
5 万法料理秘密箱卵百珍 (国文学研究資料館 ) 1. 卵鍋に生卵を割り入れ、厚さ 1分(3mm)程の薄焼卵を焼 く。 2. 太めの蓮の皮を剥き、よく茹
でてから、水を切る。 3. 薄焼卵に生卵の白身を塗 り、小麦粉を振る。 4. 蓮根を薄焼卵の上に置き巻 きしめる。薄焼卵の端に卵の 白身を塗る。 5. 蓮根の穴に生卵の白身を流 し込む。 6. ⑤を遠火で炙る。 7. 火が通ったら、よく冷まして 切る。
出典:国会図書館蔵『猿猴庵随観図絵』高力種信(1756〜1831) 6 七月二十八日の夕方、北の空が薄赤く、遠 方の火事かと噂するうちに、次第に色が濃く なり、夜に入って明るいことは月夜のようで ある。戌の刻(午後8時頃)ごろから赤い気 がひどくなり、その中に竿のような白い筋が 幾すじも現れ、空の半分に覆いが広がり、 西から東に広く白い気が数多くある。地面一 面が真っ赤で、人々は驚き騒ぎ、その土地
の生祠で神楽をあげ、あるいは念仏を唱え て、生きている心地がしない。「これは世が 終わるのか、火の雨でも降るのではないか」 と、屋根に水をかける者もあり、高い所に 登って見ると、赤い気の中に物が煮えるよう な音が聞こえる。夜明けには、東西に分か れるようにして消えた。 (Translate by Sakana Chat Namazu)
The Great Ansei Earthquake, Edo city, 1855 - Tokyo Metropolitan
Library - Tokyo Shiryo Collection 7 天地の気が調和せず順わないときは、陰の気が地中に満ちて、一気に噴き出す。これを地上では「地震」と言い、海上では「津波」と 言う。山中で発するときは洞窟が抜け落ちるためである。すべて風雨不順のなせるわざであり、恐るべき大事である。ここに安政二年 (1855年)乙卯の冬、十月二日の夜四つ時(午後十時)過ぎのころ、東国においては肉声も絶えるほどの激震が襲い、まさに風前の 灯のごとくであった。その中でまず御府内(江戸市中)の焼亡の地を記す。千住から塚原まで地震の届かぬところはなく、一時に金坊 を崩し、人命も残らず失われた。千住宿は大半が崩れ、山谷橋は残らず崩れ、今戸橋際では数十軒が焼けた。新吉原は五丁とも残ら ず焼け、焼死人はおびただしかった。田町一丁目・二丁目、山川町、浅草竹門、小万道、聖天横町、芝居町三町、北谷中谷の守院 南、馬道から花川戸にかけて半町ほどが焼けた。山の宿町から杉木辺りは残らず崩れた。駒形町の中頃から出火し、諏訪町・黒船町 は崩れた。御馬屋・聖天町も崩れた。浅草寺は無事であったが、雷門の雷神像が揺るぎ、広路の並木辺りも崩れた。河岸にて焼け止 まり、御蔵前・第六天町辺り、富坂町・森下辺りは大破した。東の方では心菊屋橋際の新寺町・新堀ともに少し焼けた。大音寺から三 ノ輪・金杉辺りが崩れ、坂本は三丁目が焼けた。山崎町・東坂・広徳寺前も崩れた。また山本仁太夫の家来のうち死人が多く、家は残 らず崩れた。その外の寺院も大破・損亡おびただしかった。谷中・三崎・千駄木・西片込は崩れがひどく、根津門前は大半が崩れた。 池の端・茅町二丁目の境から稲荷の向こうより一丁目にかけて、御記屋町は大崩れとなった。小路の東側は中程から伊東松坂屋の 角まで、木戸際にて留まった。切通しの坂下は大崩れ、仲町は片側の町が崩れ多く、両側ともすすけて広がった。上野町から長者町 辺りが焼け、御徒町近辺から三味線堀・七曲がりにかけては大名方の記屋敷とも崩れたとはいえ、多分の損失であった。御成通りが 崩れ、神下は破れが多かった。神田の町家は崩れが少なく、湯島天神は崩れが少なかった。門前町は崩れが多く、妻恋町は少しも崩 れず、稲荷の社は無事であった。本郷はその辺りの破損は少なかった。筋違御門から日本橋通りの左右、神田の東西ともに崩れが 多かった。小川町・本郷の松平紀伊守様・板倉様・戸田様の屋敷が焼けた。神田橋内の酒井雅楽頭様、同じく御向かいの屋敷、龍之 口角の森川出羽守様、また一つ下ると八代洲河岸の植村但馬守様、因州様の御屋敷などであった。和田倉御門内は松平肥後守様・ 松平下総守様が焼け、近所も崩れ、その外丸の内の御大名方の所は崩れが多かった。鍋島様の御屋敷も残らず大きな損害を受け た。幸橋内の松平甲斐守様・伊東様・良井様ともに焼けた。藩州様の屋敷も焼けた。残らず焼けた山下御門内の阿波様のところも崩 れとなった。愛宕下から諸家様は大半が崩れ、黒田様の御物見が残った。永田町・三笠家・麹町辺りは崩れがひどかった。四ツ谷・ 市ヶ谷・牛込・小日向・小石川・番町辺りも荒れて横死した者が多かった。赤坂・青山・麻布・渋谷・白金・品川・高輪・台町ともに崩れは 少なかった。赤羽根・三田・飯倉・麻布久保は崩れが多かった。増上寺辺りも外の寺院の損亡が甚だしかった。法恩寺橋から本所は 中の郷の松平周防守様が焼け、この辺りは大崩れにて所々から出火があった。同所の番場町・弁天小路も焼けた。御蔵前町から泉・ 八名川町・六間堀・森下町・高橋にて町家が焼けた。亀戸町は二ヶ所焼けた。また竪川通りは桐生町・緑町・三ツ目・花町も焼けた。ま た船留りから下口は深川相川町から柔江町・大島町・浜栗町・永代寺門前町で、八幡宮の鳥居際にて止まった。また乙女橋向こうの 南大川端は少し焼けた。本所・深川はなべて地震が強く、死亡者はおびただしかった。日本橋から南の東西中通りも河岸通りも共に 大崩れであった。南伝馬町二丁目・三丁目の左右河岸から京橋・川通りまで焼けた。木挽町・桜田・久保町・愛宕下は崩れが多く、芝 口通りは少しであった。明神町・三島町は大崩れで怪我人が多かった。神明宮は恙なく、松手御屋敷は残らず傷んだ。門前・片門前・ 浜松町・金杉・本芝・露月町が崩れ、柴井町が焼けた。神明辺りは崩れが少なく、田町・大木戸から品川方面は格別の崩れはなかっ た。羽生(はぶ)より三日から七日、揺れが続いたが、格別のことはなく、追々静穏に及んだ。下々へは御救いをと、御救い小屋を三ヶ 所にお立てになり、御仁徳の国恩を拝謝し奉らぬ人はなかった。まことにありがたきことである。ただし、出火が止められたのは十六ヶ 所であったが、焼けたところは原のごとし。火の用心すべし。
くずし字 『宇津保物語』(国文学研究資料) 8
「トニカクカワイイ」小学館集英社プロダクション (2020) 9
Alice's adventures in wonderland (1894 edition) by Carroll, Lewis, 1832-1898
(archive.org) 『春色梅児与美』 (1833年版) 為永春水 (1790-1844) (国語研蔵) 10
翻刻(くずし字を現代日本語文字に変換すること) ? ? か 11
『万葉集』巻五の「梅花謌卅二首并序(梅花の歌 三十二首、并せて序)」の該当箇所 12
13 ひらがな「か」
か 14
事 15 くずし字 異体字
2.くずし字認識モデルの学習データ 16
17 くずし字データセット • 江戸時代の古典籍 44 点 • 6151 ページ • 1,086,326 文字 •
4,328 文字種 Unicode, x, y, w, h を U+3029, 512, 418, 56, 47 17
18 https://honkoku.org/ みんなで翻刻プロジェクト
19 歴博の橋本雄太准教授のプロジェクト:みんなで翻刻 https://honkoku.org/, https://github.com/yuta1984/honkoku-data 2017年に歴史地震の研究グループである 京都大学古地震研究会 に よって、地震史料の翻刻プロジェクトとして始まりました。すでに「みんな で翻刻」では、通算10,800人強の人々により4,800万文字を越える翻刻 を行っています。
3.くずし字認識モデル RURI、Metom 20
RURIは国文学研究資料館、国立国語研究所が作成し、ROIS-DS人文学オープンデータ共同利用センター(CODH)が公開するくず し字データセット、みんなで翻刻データセットを学習している。 21 くずし字認識モデル「 RURI」:物体検出 蕷坤和順せざるときは陰地中に満て一時に発す是地上に地へ人といひ海上に津浪といふ 山中に発する時は洞のぬけたゝめ皆風雨不順の為す所にして恐るべきの大叓なる于茲安 政二年乙卯冬十月二日夜四ツ時過るころ肉東の国とはにを絶と風前のともしびの如し其中 に先御府内焼亡ノ地は千住に塚原地震のとゝかさるをなく一時金坊を崩し人命不残焼け子 住宿は大半崩れ山谷橋いのこらす崩れ今戸橋きは数十軒やける新吉原は五丁共不賎焼
死人おびたじしく田丁壱丁目弐丁目山川町浅草竹門小万道聖天横町芝居町三町北谷中谷 の守院南馬道ゟ花川戸半町程やける山の宿町ぎすレ木辺残らす崩れ駒形町中頃ゟ出火 諏訪町黒船町御馬や聖天町は崩る浅草寺は無事にて雷門の雷神ゆる出広路並河岸ニて やけどまる御蔵前第町辺富坂町森下辺大破東門以心な菊屋橋きは新寺町新堀共少しや ける大音寺ゟ三の輪金杉辺崩れ坂本は三丁目やける山崎町東坂広徳寺前導崩わん又は 山本仁太夫失来内死人多し家不残崩る其外寺院大破損亡おびただし◦谷中三崎子駄木西 込は崩にし根津門前は大半崩池の端茅町弐丁目境いなり向よりや壱丁な御壱記や町は大 崩小路東がは中程ゟ伊東松坂屋角迄木戸際にて留る切通を坂下大崩仲町は片側丁崩多 く両かはすすく広上野町ゟ長者町辺やける御徒町近辺ゟ三味せん堀七まがりは大名方記 屋敷共崩るといへとも多分のとし御成通崩神下破れ多く卯神田町家の分崩少湯島天神は 崩少し門前町崩多く妻慈町少しも不崩稲荷の社無事也本郷其破様外は少し筋違御門ゟ日 本橋通り左右神田東西共崩多し小川町本郷様松平紀伊守様板倉様戸田様やける焼神田 橋内酒井狂架頭様同御向やしき竜之口角森川出羽守様又一下ト口は八代洲河岸植村但 馬守様因州様御硝等なり和田倉御門内は松平肥後守様松平下総守様やける近所崩れ其 外丸の内御大名方所崩多し鍋島様御屋敷らす大と夫幸橋内柱平甲斐守様伊東様良井様 共やける藩州様装東屋敷家る不残やける山下御門内阿都様のこ崩なりゟ露関は諸家様大 半くづれ黒田様御物見のこる永田町三写家かうじ町辺は崩にし四ツ谷市ヶ谷牛込小日向 小石川番町辺あれも横亡おほし赤坂青山麻布渋谷白浪品川高輪台町共崩少し赤羽根三 田飯倉物久保は崩多シ増上守へ年辺け外寺院損亡気法恩寺橋◦地本所は中の郷松平周 防守様やける此辺大崩にて所々ゟ出火あり同所番場丁弁天小路やる其御蔵前町ゟ泉八 名川町六間堀森下町高橋にて町家やける亀戸町二ヶ所やける又竪川通りは桐生町録町 三ツめ花町よやける又船留る又下口は深川相川町ゟ柔江町大島町はまくり町永代寺門前 町八幡官鳥居きはにて止る又乙女橋向南大川端少しやける本所深川なしなへて地震つよ く校亡おびたしし〇日本橋ゟ南東西中通か河岸通る共大崩ゝて南伝馬町弐丁目三丁目左 右川岸京橋川通る迄やける浪座町三十間堀尾張町辺少したるみ新橋向饒地木挽町桜田 久保町あたご下崩れ多芝口通少しれ町明町三島町大崩怪我人今筆神明官恙な漬手御屋 敷残すいたむや門前片門前漬松町金杉本露月丁崩柴井やける神芝辺崩少し田町大木に 品川香拾別の崩な羽生三郎ゟ七日上明日しづらふるひけれ共別にさつるヿなく追々静鑑 におよひ下々へは御救をと下置御救小屋三ヶ所へ御立候下御仁徳のぬ国恩を拝謝し奉ら ん人こそなかりけれあらありがた事共なり但シ出火のせつるられ十六なれともやけるところ は原のことし火の用心し
22 くずし字認識モデル「 RURI」:物体検出 画像 文字分割 文字認識 レイアウト 解析 テキスト 出力
23 Metom:一文字認識 Vision Transformerモデル https://huggingface.co/SakanaAI/Metom
4.みを:AIくずし字認識アプリ 24
みを:AIくずし字認識アプリ 25 • 「みを」は、2021年8月末の公開。 • 人文学オープンデータ共同利用センターが無料 で提供している。 • ダウンロード回数25万回以上。 •
一日平均利用回数2100回以上。 • 現在まで累計約350万枚の画像のくずし字認識 を行った。 • 社会にはくずし字を読む高い需要があることを 示した。 2022年10月7日にグッドデザイン賞(システム・サービス部門)を受賞した。
26 みを:AIくずし字認識アプリ
「みを」の名前:みをつくし(澪標) 27 • 『源氏物語』第十四巻 みをつくし(澪標)。 • 「みをつくし」が人々の水先案内となるように、「み を」アプリがくずし字資料を読むための道案内となる ことを目指している。 • 「みを」アプリと生成AIを利用する「つくし」プロジェク
トがある。
5.江戸時代の古典籍を学習した 大規模言語モデル「からまる」 モデル・デモ: Sakana AI HuggingFace 28
みんなで翻刻データ (人間が作ったテキスト) 1200万文字 CODHの くずし字データセット (人間が作ったテキスト) 100万文字 CODHの 日本古典籍データセット (1008冊、文字認識AIが作っ
たテキスト) 1200万文字 合計:2500万文字(一般の大規模言語モデルの学習データは 数千億文字が必要) 大規模言語モデル「からまる」: Elyza8Bから継続学習 ベースモデルは、株式会社ELYZA が開発した現代日本語に特化した 「Elyza 8B」モデル 29 からまるモデル 古典籍 RURI くずし字 OCR Refiner
あなたの名前はなんですか。 某が名を問せ給ふか我が名はからまる にて候 からまるはAIですか。 AIにとって大事なものはなんですか。 某は人工智慧と申すものにて候 AIにとりて大切なるものはデータなりこれに よりて己か身を成長せしむる所以也 30
からまるの学習データについて教えてく ださい。 某が記憶する処の書物の数々は古来より集めたる百家の著述にて一千 余巻に及び候しかれども天地開闢以来の書籍は皆知らずといふ事なし と申すに某が記憶する処の書物の数々はまだ全体の一ッ二ッに過ぎず 候 現代語訳 私の記憶している書物の数々は、古くから集められた諸家の著作で、その数 は千巻余りにのぼります。しかし、天地開闢(てんちかいびゃく:世界の始ま り)以来の書物をすべて知っている者などいない、というですので、私の記憶
している書物など、全体のほんの一部、わずか一つか二つに過ぎないので す。 31
32
6.浮世絵画像生成モデル: Evo-Ukiyoe-v2 33
広重の浮世絵 34 The MET からの「広重」の浮世絵データ
画像生成モデルの「浮世絵」 !!AIで生成された画像 35
https://github.com/QwenLM/Qwen-Image 36
Qwen-ImageをFinetune Evo-Ukiyoe-v2 Qwen-Image 立命館大学 アートリサーチセンター Metropolitan Museum of Art CC0
Public Domain 37
Qwen-Image Base Model Qwen-Image Base Model + 浮世絵スタイル !!AIで生成された画像 38
Qwen-Image Base Model + 浮世絵スタイル !!AIで生成された画像 39 Evo-Ukiyoe-v2 (FinetuneしたQwen-Image)
Evo-Ukiyoe-v2 !!AIで生成された画像 40
7.浮世絵画像生成モデル: Evo-Ukiyoe-v2 Azabudai Hills Project 41
6. Azabudai Hills Project 42 https://hillslife.jp/innovation/2026/05/21/sakana-ai-meets-ukiyo-e/
6. Azabudai Hills Project 43 !!AIで生成された画像
6. Azabudai Hills Project 44 !!AIで生成された画像
6. Azabudai Hills Project 45 OpenMeteo JMA 予測データ AmeDAS 地域気象観測
システム 画像選択 Display Prompt作成 約470天気パターン Evo-Ukiyoe-v2 〜7500枚
8.浮世絵画像生成モデル: Evo-Ukiyoe-v2 Evo-Ukiyoe-v2で古典籍を可視化 46
Evo-Ukiyoe-v2で古典籍を可視化 47 !!AIで生成された画像
古典籍 RURI OCR 本のメタデータ 画像Prompt作成 エージェント 本のまとめ作成 エージェント 5. Evo-Ukiyoe-v2で古典籍を可視化
Evo-Ukiyoe-v2 48
49
Evo-Ukiyoe-v2で古典籍を可視化 CODH古典籍データセット『徒然 草抄』 古典籍可視化 エージェント !!AIで生成された画像 50
浦島太郎の物語を江戸時代の文人が独自に翻案した作品 です。漁師の浦島子が 亀を助けたことから海神の娘と出会い、竜宮城で幸せな日々を過ごしますが、故郷の 両親を思い出して帰郷を決意します。玉手箱を開けてはならないと言われながらも、 変わり果てた故郷で思わず開けてしまい、白髪の老人になってしまう悲劇が描かれて います。天保年間に内田直が執筆し、鵜飼家に伝わった写本で、丹後国(現在の京都 府北部)が舞台として設定されています。 AI for DA
: Evo-Ukiyoe-v2で古典籍を可視化 CODH古典籍データセット『水江 物語』 みずのえものがたり 古典籍可視化 エージェント !!AIで生成された画像 51
AI for DA : Evo-Ukiyoe-v2で古典籍を可視化 CODH古典籍データセット『除蝗 録』 じょこうろく 古典籍可視化 エージェント
!!AIで生成された画像 文政9年に大蔵永常が著した蝗害対策の実用書です。享保・天明年間の飢饉の経 験から、イナゴなどの害虫を鯨油で駆除する方法を詳しく解説しています。 気候と 害虫発生の関係、油の種類と効果の違い、田への油の撒き方、作業の時刻や手 順まで、具体的な実践方法を図入りで紹介します。西国では既に実践されていた 技術を東北地方にも広めるために執筆された、飢饉を防ぐための農業技術書で す。佐藤一斎の序文も収録されています。 52
9.仮名消息と Sakana Fuguと 推論時スケーリング 53
Sakana Fuguとは 54 Sakana Fuguは、複数のフロンティア基盤モデルを協調させることで、コーディング、数学、科学的推論といった幅広い領域で高い性能 を引き出すマルチエージェント・オーケストレーションシステム です。どのモデルをどう組み合わせて使うかを固定のルールで 決めるのではなく、問題に応じて最適なエージェントの組み合わせと協調の仕方を、モデルのプールの中から動的に選び出します。 Sakana Fuguはそれ自体が小規模なモデルであり、 LLMを呼び出すことを学習します(左)。学習の過程で自分自身を呼び出すこと
も習得でき、これにより推論時スケーリングが実現します (右)。なお、図では説明のためにシングルステップのルーティングとして示して いますが、実際のSakana Fuguが実現するオーケストレーションはより適応的かつ複雑です。
55 こうした適応的なオーケストレーションによって、Sakana Fuguは既存のベンチマーク上でも高い 性能を発揮します。以下は結果の一部です。 各ベンチマークタスクごとのスコア:*はAnthropic独自の検証用フレームワークを使用した自己申告スコア。SWEPro の評価に は mini-swe-agent のスキャフォールドを使用。Anthropic が公表している Opus の最大思考モードのスコアについては、当社での評価試 行中に頻繁にタイムアウトが発生したため、Anthropic 公式の報告値を採用。 Sakana Fuguとは
56 Sakana Fugu
仮名消息 芳春院筆仮名消息 (慶應義塾大学斯道文庫蔵) 57 https://objecthub.keio.ac.jp/object/561 芳春院〈ほうしゅんいん・1547-1617〉は金沢藩 祖・権大納言前田利家〈まえだとしいえ ・1537-99〉の正室。本名まつ。永禄元年 〈1558〉12歳のとき、20歳の利家と結婚。慶長 4年〈1599〉閏3月3日に利家が死去。その直 後に出家して尼となり、芳春院と号した(53
歳)。また京都紫野の大徳寺内に芳春院を建 立した。この頃利長と徳川家康の間が険悪に なり、芳春院は自ら人質として江戸に下った。 以後、慶長19年〈1614〉6月まで(68歳)、足掛 け15年間の江戸暮らし、71歳で金沢にて没し た。この手紙は、前田家家臣・村井長次〈むら いながつぐ・通称出雲・1568-1613〉に宛てたも の。時に芳春院は64歳であった。流麗な筆致、 数少ない女性の手紙として注目すべき一通で ある。文末の署名「はう」は、芳春院の略であ る。
58 https://objecthub.keio.ac.jp/object/561 仮名消息 芳春院筆仮名消息 (慶應義塾大学斯道文庫蔵)
59 https://objecthub.keio.ac.jp/object/561 仮名消息 芳春院筆仮名消息 (慶應義塾大学斯道文庫蔵)
60 人間(私)の決めた読み順のルール 1. 起点(書き出し) 最初の文字は右端から 手のひら 1つ分ほど内側にあり、最も大きく目立つ。最右端からは始めない。 2. ブロック=直角三角形 各文字ブロックはほぼ直角三角形(右下が直角、右辺は垂直・底辺は水平・斜辺は左上へ)。
3. 文字高は3段階 文字の高さは3段階あり、位置ではなく「高さ」で所属が決まる。 第1群=最も大きい本文、第 2群=やや小さい、第 3群=最上部のごく小さい文字。 4. 3巡で読む 第1巡=ブロック1から左端へ流れる。 第2巡=右側に残した小さな塊を埋める。 第3巡=最上部の小さなブロックを右 →左で読む。 5. ブロック内=縦書き 6. 縦の間隔で区切る。縦の間隔が小さいときだけ連続して読む。 7. 厳密ではない(目安)これらは厳密な規則ではなく視覚的な目安。実際の文字は正確な三角形や等間隔 にならない。許容範囲は学習( fitness)が教える。
61 推論時スケーリングでコードを探索: Beam Search Test-time Scaling:モデルに一発で答えさせるので はなく、推論時の計算を使ってプログラムの空間を 「探索」する。 LLMを変異オペレータ(mutation operator)にした
ビームサーチ: • 良いプログラム群(ビーム)を保持する。 • 各ステップで、親プログラムとその「失敗した ページ」をモデルに渡し、より良い子プログラ ムを書かせる。 • 各子をNEDで採点し、上位を残して繰り返 す。 • 変異を駆動するのは fugu-ultra。 一言で言え ば、モデルの役割は「答えを知っていること」 ではなく「これがプログラム、ここが失敗箇 所」を「これがより良いプログラム」へ変換す ること。 • 「読み順のルール」を、探し出す対象の Pythonプロ グラムとして扱う。 • 入力=各文字のBounding Boxes(x, y, w, h)+ ページサイズ、出力=読み順を表す並べ替え(順 列)。 • Fitness=NED(Normalised Edit Distance, 1 −Edit Distance/n)を専門家の正解(GT)と比較 する。 • データはごく少量:手作業で注釈した訓練ページは 25枚のみ。 • このレイアウトを何も知らない汎用の段組み予測 器。初期NED 0.109。
62 Sakana Fugu-Ultraの仮名消息の読み順推定 Model NED Gain Fugu Ultra 0.785 +0.676
Frontier Model A 0.417 +0.308 Baseline: 0.109
63 資料に扱った Sakana AIのプロダクト、オープンソースモデル、共同開発アプリ • CODH、共同開発アプリ「みを」:AIくずし字認識アプリ ◦ https://codh.rois.ac.jp/miwo/ • Sakana
AI:Namazu (Sakana Chat) ◦ https://chat.sakana.ai/ • Sakana AI:Metom ◦ https://huggingface.co/SakanaAI/Metom • Sakana AI:Karamaru ◦ https://huggingface.co/SakanaAI/Llama-3-Karamaru-v1 • Sakana AI:Evo-Ukiyoe-v2 (近日公開) ◦ (v1: https://huggingface.co/SakanaAI/Evo-Ukiyoe-v1 ) • Sakana AI:Sakana Fugu (近日公開) ◦ https://sakana.ai/fugu-beta/
👉 https://sakana.ai/careers 64