Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
NLPコンペの知見を実務に活かすために / introduction-ayniy
Search
Shotaro Ishihara
February 22, 2020
Technology
4
5.3k
NLPコンペの知見を実務に活かすために / introduction-ayniy
「Kaggle Google Quest Q&A Labeling 反省会」(
https://connpass.com/event/167595/
) の発表資料
Shotaro Ishihara
February 22, 2020
Tweet
Share
More Decks by Shotaro Ishihara
See All by Shotaro Ishihara
マルチモーダル AI 実装の課題と解決策 / Developer X Summit
upura
0
24
ニュースメディアにおける事前学習済みモデルの可能性と課題 / IBIS2024
upura
3
510
「巨人の肩の上」で自作ライブラリを作る技術 / pyconjp2024
upura
3
810
Quantifying Memorization and Detecting Training Data of Pre-trained Language Models using Japanese Newspaper
upura
0
43
第 2 部 11 章「大規模言語モデルの研究開発から実運用に向けて」に向けて / MLOps Book Chapter 11
upura
0
390
第19回YANSシンポジウムスポンサー資料 / yans2024-nikkei
upura
0
32
Quantifying Memorization of Domain-Specific Pre-trained Language Models using Japanese Newspaper and Paywalls
upura
0
50
「極意本」サンプルコードをクラウド上で動かそう
upura
1
2.4k
論文紹介: Generating News-Centric Crossword Puzzles As A Constraint Satisfaction and Optimization Problem
upura
0
310
Other Decks in Technology
See All in Technology
The Role of Developer Relations in AI Product Success.
giftojabu1
0
140
日経電子版のStoreKit2フルリニューアル
shimastripe
1
140
アジャイルでの品質の進化 Agile in Motion vol.1/20241118 Hiroyuki Sato
shift_evolve
0
170
マルチモーダル / AI Agent / LLMOps 3つの技術トレンドで理解するLLMの今後の展望
hirosatogamo
37
12k
SREが投資するAIOps ~ペアーズにおけるLLM for Developerへの取り組み~
takumiogawa
1
440
なぜ今 AI Agent なのか _近藤憲児
kenjikondobai
4
1.4k
Flutterによる 効率的なAndroid・iOS・Webアプリケーション開発の事例
recruitengineers
PRO
0
120
【Startup CTO of the Year 2024 / Audience Award】アセンド取締役CTO 丹羽健
niwatakeru
0
1.3k
SRE×AIOpsを始めよう!GuardDutyによるお手軽脅威検出
amixedcolor
0
180
Amazon CloudWatch Network Monitor のススメ
yuki_ink
1
210
障害対応指揮の意思決定と情報共有における価値観 / Waroom Meetup #2
arthur1
5
490
心が動くエンジニアリング ── 私が夢中になる理由
16bitidol
0
100
Featured
See All Featured
Stop Working from a Prison Cell
hatefulcrawdad
267
20k
Docker and Python
trallard
40
3.1k
Rebuilding a faster, lazier Slack
samanthasiow
79
8.7k
Faster Mobile Websites
deanohume
305
30k
Bash Introduction
62gerente
608
210k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
0
100
Practical Orchestrator
shlominoach
186
10k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
33
1.9k
Documentation Writing (for coders)
carmenintech
65
4.4k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
44
2.2k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
27
4.3k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
665
120k
Transcript
NLPコンペの知⾒を実務に 活かすために u++ (@upura0) Kaggle Google Quest Q&A Labeling 反省会
2020年02⽉28⽇ 1
本発表について 資料は公開済です(https://speakerdeck.com/upura) 「会場だけ」の情報もあります 「会場だけ」を除き、SNS・ブログでの⾔及もOK ⽬次 . コンペと実務 . ⾃作ライブラリ「Ayniy」 .
(会場だけ)実例 2
⾃⼰紹介 事業会社のデータサイエンティスト 法⼈向けデータ分析組織⽴ち上げ サービス企画・開発など Kaggle Kaggle Master (profile) PetFinder.my Adoption
Prediction コンペ優勝 『Kaggleに登録したら次にやること 〜 これだけやれば⼗ 分闘える!Titanicの先へ⾏く⼊⾨ 10 Kernel 〜』 『PythonではじめるKaggleスタートブック』 Weekly Kaggle News 3
1.コンペと実務 4
コンペと実務 コンペで得た知⾒を実務に還元できれば最⾼ 知⾒を活かしやすいよう、コンペと実務で共通の⾃作ライブラ リを使っている 課題: コンペ特化の複雑なpipelineは、実務だと逆に使いづらい コンペでは英語が多いが、実務では⽇本語が多い 5
2.⾃作ライブラリ「Ayniy」 6
Ayniy コンペでも実務でも使っている⾃作ライブラリ 「よくある処理」を共通インターフェースで⼿軽に ⽇本語&英語の⾃然⾔語処理にも対応 7
Ayniy? サドリディン・アイニー(1878年4⽉15⽇ - 1954年7⽉15 ⽇)は、ソビエト連邦タジク共和国(現:タジキスタン)の作 家、ウラマー。タジク語による著述活動を⾏い、ソビエト連 邦ではタジク・ソビエト⽂学の創始者として⾼い評価を受け た。 https://uz.wikipedia.org/wiki/Sadriddin_Ayniy 8
設計思想 train, test = PROCESSING(train: pd.DataFrame, test: pd.DataFrame, col_definition: dict,
option: dict) 9
⽇本語・英語の切り替え 10
共通インターフェース config.yamlの設定がしやすい All you need is yaml col_definition: id_col: 'PetID'
target_col: 'AdoptionSpeed' numerical_col: [ 'Age', ] categorical_col: [ 'Type', ] text_col: [ 'Description', ] 11
3.(会場だけ)実例 12
まとめ 13
まとめ コンペの知⾒を実務で活かすための⾃作ライブラリ「Ayniy」 を紹介 「Google Quest Q&A Labeling」で得られた知⾒も、実務で 活⽤していきたい 14