Upgrade to Pro — share decks privately, control downloads, hide ads and more …

「巨人の肩の上」で自作ライブラリを作る技術 / pyconjp2024

「巨人の肩の上」で自作ライブラリを作る技術 / pyconjp2024

「巨人の肩の上」で自作ライブラリを作る技術 (PyConJP 2024)
https://2024.pycon.jp/ja/talk/CLJQ37

Shotaro Ishihara

September 22, 2024
Tweet

More Decks by Shotaro Ishihara

Other Decks in Technology

Transcript

  1. 7 国際会議 INLG 2024 (9/23-27) で発表 • 日経電子版で学習した大規模 言語モデル (GPT-2)

    の暗記を 分析した研究 [論文] • 日本科学未来館で開催
  2. 汎用言語モデルに基づく統合的解析器 ❯ + 21D <NE:DATE:27日><体言><修飾><時間> 27 にじゅうしち 27 名詞 6

    数詞 7 * 0 * 0 日 にち 日 接尾辞 14 名詞性名詞助数辞 3 * 0 * 0 "代表表記:日/にち 準内容語 カテゴリ:時間" <基本句-主辞> 20 既存ライブラリ②:KWJA
  3. 27 ライブラリとして実装開始 • ディレクトリのルートに setup.py • pip install -e .

    で編集モードでインス トール https://packaging.python.org/en/latest/gui des/distributing-packages-using-setuptools /
  4. • プロジェクト名を付けると気分が乗る • 最初は入出力だけを定義することに ❯ from jarote import by_rote ❯

    … ❯ by_rote(text, reference_datetime) 28 jaROTE (Reproducing Omitted Time Expressions for Japanese)
  5. 30 • 「日本経済新聞記事オープンコーパス」 の 96 記事を対象に Spreadsheet に入 出力の組を列挙 •

    泥臭く取り組みながら、要件を精緻化し ていく 最終的に実現したい処理を手動で実行
  6. • 「巨人」の知見 (ja-timex や KWJA、 過去の発表文献など) に改めてお礼申 し上げます • jaROTE

    もその一部になれるよう、鋭 意開発を進めていきます 36 謝辞