Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
軽量Linked Open Data公開ワークフロー / 20200621 Lightweig...
Search
Masao Takaku
June 21, 2020
Research
0
550
軽量Linked Open Data公開ワークフロー / 20200621 Lightweight Linked Open Data Workflow
Code4Lib JAPANカンファレンス2020
2020年6月21日(日)
http://wiki.code4lib.jp/wiki/C4ljp2020
Masao Takaku
June 21, 2020
Tweet
Share
More Decks by Masao Takaku
See All by Masao Takaku
論文の探し方 (高久研究室編) / How to find scholarly articles
masao
0
180
Code4Lib JAPANカンファレンス10周年振り返り / 10 years of Code4Lib JAPAN conference
masao
0
73
学習指導要領LOD / 2022-03-13 JP-COS LOD
masao
0
260
SHACL (Shapes Constraint Language) によるアプリケーションプロファイル記述の試み / 2021-11-26 SIGSWO
masao
0
410
研究紹介 高久研究室 (2021年版) / 202104 Takaku Lab Intro
masao
0
230
ウィキペディアタウンサミット2021 : 冒頭解説 / Wikipedia Summit 2021
masao
0
350
Next-L Enju概要 / Next-L Enju Overview (2020-11-04)
masao
0
140
IFLA図書館参照モデル輪読会資料 4.1.3 / IFLA LRM 4.1.3
masao
0
190
Information Organization in the Web Age
masao
0
360
Other Decks in Research
See All in Research
Large Vision Language Model (LVLM) に関する最新知見まとめ (Part 1)
onely7
21
3.5k
尺度開発における質的研究アプローチ(自主企画シンポジウム7:認知行動療法における尺度開発のこれから)
litalicolab
0
350
KDD論文読み会2024: False Positive in A/B Tests
ryotoitoi
0
200
非ガウス性と非線形性に基づく統計的因果探索
sshimizu2006
0
370
ニュースメディアにおける事前学習済みモデルの可能性と課題 / IBIS2024
upura
3
510
Embers of Autoregression: Understanding Large Language Models Through the Problem They are Trained to Solve
eumesy
PRO
7
1.2k
クロスセクター効果研究会 熊本都市交通リノベーション~「車1割削減、渋滞半減、公共交通2倍」の実現へ~
trafficbrain
0
260
2024/10/30 産総研AIセミナー発表資料
keisuke198619
1
330
Zipf 白色化:タイプとトークンの区別がもたらす良質な埋め込み空間と損失関数
eumesy
PRO
6
700
[CV勉強会@関東 CVPR2024] Visual Layout Composer: Image-Vector Dual Diffusion Model for Design Layout Generation / kantocv 61th CVPR 2024
shunk031
1
460
メールからの名刺情報抽出におけるLLM活用 / Use of LLM in extracting business card information from e-mails
sansan_randd
2
140
ニューラルネットワークの損失地形
joisino
PRO
35
16k
Featured
See All Featured
Building a Modern Day E-commerce SEO Strategy
aleyda
38
6.9k
Site-Speed That Sticks
csswizardry
0
28
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
8
900
The Art of Programming - Codeland 2020
erikaheidi
52
13k
GraphQLとの向き合い方2022年版
quramy
43
13k
Designing for Performance
lara
604
68k
Making Projects Easy
brettharned
115
5.9k
Java REST API Framework Comparison - PWX 2021
mraible
PRO
28
8.2k
For a Future-Friendly Web
brad_frost
175
9.4k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
109
49k
A Philosophy of Restraint
colly
203
16k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
665
120k
Transcript
軽量Linked Open Data公開 ワークフロー Poorman's ToolkitからXlsx2Shapesまで 1 Code4Lib JAPANカンファレンス2020 2020年6月21日(日)
江草由佳 国立教育政策研究所
[email protected]
高久雅生 筑波大学
[email protected]
大きな目標とそのためのツール群 • Linked Open Data (LOD) の展開を図る 簡単にLOD公開、提供ができると嬉しい! 整理されたコレクション情報の共有 詳細な書誌情報の活用・再利用
LODメタデータスキーマの文書化と共有 • ツール群 LODデータ構築:Poorman’s Toolkit データ配信(公開):ttl2html + GitHub Pages 永続的URL:w3id.org メタデータ文書化:xlsx2shapes + SHACL 2
3 https://w3id.org/jp-textbook/
教科書Linked Open Data (LOD) • 過去半世紀以上にわたって専門図書館(教育図書 館)が整備してきた書誌情報をウェブの世界で活用 しやすく整理する = 教科書データのウェブリソー
ス化 対象:約7,000冊の書誌情報(タイトルや出版社) 教科書と関連するリソースにURLを付与する 学習指導要領, 教科, 種目, 教科書目録, etc. メタデータ項目を整理してできるだけシンプルに提供 • LODチャレンジ2016テーマ賞「教育LOD賞」受賞 • (詳しくは下記論文を参照) 江草由佳, 高久雅生: 教科書Linked Open Data(LOD)の 構築と公開. 情報の科学と技術, 2018, Vol.68, No.7, pp.361-367. https://doi.org/10.18919/jkg.68.7_361 4
教科書LODにおけるURL付与 (1) • すべての教科書をURLで一意に示せる・ 利用可能に 5 https://w3id.org/jp-textbook/高等学校/2006/世B/013 例:高等学校で使われている「世界史B」の教科書 (2006年に検定済み(奥付に記載あり)、東京書籍が出版) •
教科書記号(例:世B)及び教科 書番号(例:013) • 教科書のわかりやすいところに 記載さている • (文部科学省が検定済教科書を 整理・周知する際に使用) 高等学校地理歴史教科用 文部科学省検定済教科書 2 東書 世B 013 教科書の表紙に:
教科書LODにおけるURL付与 (2) • 種目 https://w3id.org/jp-textbook/curriculum/高等学校 /2013/国語/国語総合 学校種別 + 学習指導要領施行年 +
教科名 + 種目名 • 教科 https://w3id.org/jp-textbook/curriculum/高等学校 /2013/国語 学校種別 + 学習指導要領施行年 + 教科名 • 学習指導要領 https://w3id.org/jp-textbook/curriculum/高等学校 /2013 学校種別 + 学習指導要領施行年 6
教科書LODデータセット構築/公開 のデータフロー 書誌情報 データベース 図書館システム TSVエクス ポート出力 編集 URL追加 RDF/Turtle
ファイル Rubyスク リプト HTMLファイル 群 Git push Excel 人手で作成/出力 Copy&Paste 7 Rubyスク リプト ttl2html
教科書LODにおける技術的工夫 • LODデータ変換の簡易化 Poorman’s Toolkit • GitHub Pagesによる静的サイト構築 ttl2html •
永続的URL w3id.org • メタデータの文書化 Shapes Constraint Language (SHACL) 8
LODデータ変換の簡易化 Poorman’s Toolkit (1) 9 https://github.com/jp-textbook/jp- textbook.github.io/wiki/Toolkit LODチャレンジ2018テーマ賞「LODプロモーション賞」受賞!
LODデータ変換の簡易化 Poorman’s Toolkit (2) • 1行1レコードとして記録された元データを RDF/Turtle形式に書き出すようExcel関数で 整形するだけ… 10
LODデータ変換の簡易化 Poorman’s Toolkit (3) 11
GitHub Pagesによる静的サイト構築 • RDF/TurtleデータをまとめてHTMLに変換し、 GitHub Pagesで静的サイトとして公開 • 変換ツールはttl2htmlとして汎用化して公開 12 https://github.com/masao/ttl2html
https://rubygems.org/gems/ttl2html
永続的URL w3id.org (1) • “W3C永続識別子コミュニティ”が運営する 永続URLサービス 特定のURLへのリダイレクトサービス 他にも類似サービスは多々あり – Purl.org,
DOI, etc. 無料 URL設計を反映可能 簡単に使える= GitHubプルリクエスト • https://github.com/perma-id/w3id.org 13
永続的URL w3id.org (2) 14 https://github.com/perma-id/w3id.org/pull/582
永続的URL w3id.org (3) 15 https://github.com/perma-id/w3id.org/blob/master/jp-textbook/.htaccess text/turtle形式へのHTTPリク エストが来たときだけ、*.ttl ファイルへのリクエストとし て扱う
メタデータモデルの文書化 Shapes Constraint Language (SHACL) • メタデータモデルの構造を明示する それぞれのURLリソースがどのようなプロパ ティ(属性)を持っているか文書化したい 各プロパティがどのような値(リテラル)を持
つか どのようなリソースを値として持つか? 16
教科書LODにおけるメタデータモデル 17 textbook:中学校 /2001/英語/904 textbook:school /中学校 textbook: curriculum/ 中学校/2002 英語
NEW CROWN ENGLISH SERIES 3 森住衛 ほか 29名 2001 904 K260.91||S1 2U||01/02 EB100153 24 2002- 2005 textbook: curriculum/ 中学校/2002/ 外国語 textbook: curriculum/ 中学校/2002/ 外国語/英語 中学校学習 指導要領 1998- 12-14 2002- 04-01 http://www.mext.go.jp/a_me nu/shotou/cs/1320061.htm 改訂版 3 NIER請求記号 NIERレコードID 書名 編著者名 版情報 出版者名 検定年 使用年 対象学年 教科書記号 教科書番号 種目(科目) 掲載教科書目録 教科 対応する 学習指導要領 名称 告示日 施行年月日 本文URL 学校種別 学校種別 2005年度より 「改訂版」に変 更。 注記 教科がある 所蔵情報 種目がある 120 B5 ページ数 大きさ B2|600|H17/ 18 2200501 10 所蔵情報 RCレコードID RC請求記号 978-4- 385- 70190-5 ISBN textbook: catalogue/ 中学校/2004 textbook: catalogue/ 中学校/2003 textbook: catalogue/ 中学校/2002 textbook: catalogue/ 中学校/2001 textbook: publisher/ 2001/三省堂
教科書LODにおけるメタデータモデルの 文書化 (1) 18 https://w3id.org/jp-textbook/about
教科書LODにおけるメタデータモデルの 文書化 (2) 19 https://w3id.org/jp-textbook/about
教科書LODにおけるメタデータモデ ルの文書化 (3) • 文書化記述を手書きするのはかなり辛い… • 方針: Excel → SHACL
→ HTMLへの自動変換 • SHACL (Shape Constraint Language) 検証可能なRDFデータモデルの形式記述 文書化(リソースが持つ構造の説明) • 自動化ツール xlsx2shapes の開発! 20 xlsx2shapes ttl2html
SHACLの記述例 (1) <https://w3id.org/jp-textbook/TextbookShape> a sh:NodeShape; sh:targetClass <https://w3id.org/jp-textbook/Textbook>; sh:property [ sh:path
<http://schema.org/name>; sh:name "書名"@ja; sh:name "Title"@en; sh:maxCount 1; sh:minCount 1; sh:datatype <http://www.w3.org/2001/XMLSchema#string>; skos:example "NEW CROWN ENGLISH SERIES 3"; sh:order 1 ]; …. 21 textbook:中 学校/2001/ 英語/904 NEW CROWN ENGLISH SERIES 3 書名 schema:name textbook: Textbook
SHACLの記述例 (2) <https://w3id.org/jp-textbook/TextbookShape> a sh:NodeShape; sh:targetClass <https://w3id.org/jp-textbook/Textbook>; …. sh:property [
sh:path <https://w3id.org/jp-textbook/subjectArea>; sh:name "教科"@ja; sh:name "Subject area"@en; sh:maxCount 1; sh:minCount 1; sh:class <https://w3id.org/jp-textbook/curriculum/SubjectArea>; sh:description "<code>textbook:curriculum/<var>学校種別</var>/<var>学習指導要領施行 年</var>/<var>教科</var></code>として示される科目リソースと関連付 ける"@ja; sh:description "Link to the subject area resource, represented as <code>textbook:curriculum/<var>type of school</var>/<var>year of curriculum guideline</var>/<var>subject area</var></code>."@en; skos:example "textbook:curriculum/中学校/2002/外国語"; sh:order 15 ]; …. 22 textbook:中 学校/2001/ 英語/904 教科 textbook:subjectArea textbook: curriculum/ 中学校/2002/ 外国語 textbook: Textbook textbook: curriculum /Subject Area
xlsx2shapes (1) • 1シートが1シェイプとして表現されたメタ データモデルの記述を書き込んだExcelファ イルを読み込み、SHACL形式を出力する • 先頭行はヘッダ行 • 2行目はターゲットクラス
• 3行目以降は各パスの情報を指定する 23
xlsx2shapes (2) 24
まとめと今後の課題 • お手軽なLOD公開(早い・安い・うまい) • 多様なツール群による支援 • 持続可能性への検討 • 今後の課題 やや複雑な依存関係をよりシンプルに
ツール vs ツール ツール vs データ 文書化フォーマットをより標準的な形にしたい 人柱! 25