Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
NLPコンペの知見を実務に活かすために / introduction-ayniy
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Shotaro Ishihara
February 22, 2020
Technology
5.5k
4
Share
NLPコンペの知見を実務に活かすために / introduction-ayniy
「Kaggle Google Quest Q&A Labeling 反省会」(
https://connpass.com/event/167595/
) の発表資料
Shotaro Ishihara
February 22, 2020
More Decks by Shotaro Ishihara
See All by Shotaro Ishihara
JAPAN AI CUP Prediction Tutorial
upura
2
940
情報技術の社会実装に向けた応用と課題:ニュースメディアの事例から / appmech-jsce 2025
upura
0
350
日本語新聞記事を用いた大規模言語モデルの暗記定量化 / LLMC2025
upura
0
580
Quantifying Memorization in Continual Pre-training with Japanese General or Industry-Specific Corpora
upura
1
98
JOAI2025講評 / joai2025-review
upura
0
1.5k
AI エージェントを活用した研究再現性の自動定量評価 / scisci2025
upura
1
230
JSAI2025 企画セッション「人工知能とコンペティション」/ jsai2025-competition
upura
0
110
生成的推薦の人気バイアスの分析:暗記の観点から / JSAI2025
upura
0
380
Semantic Shift Stability: 学習コーパス内の単語の意味変化を用いた事前学習済みモデルの時系列性能劣化の監査
upura
0
130
Other Decks in Technology
See All in Technology
OpenClaw初心者向けセミナー / OpenClaw Beginner Seminar
cmhiranofumio
0
320
不確実性と戦いながら見積もりを作成するプロセス/mitsumori-process
hirodragon112
1
190
サイボウズフロントエンドの活動から考える探究と発信
mugi_uno
0
110
建設的な現実逃避のしかた / How to practice constructive escapism
pauli
3
200
ストライクウィッチーズ2期6話のエイラの行動が許せないのでPjMの観点から何をすべきだったのかを考える
ichimichi
1
150
互換性のある(らしい)DBへの移行など考えるにあたってたいへんざっくり
sejima
PRO
0
550
チームで育てるAI自走環境_20260409
fuktig
0
730
Babylon.js を使って試した色々な内容 / Various things I tried using Babylon.js / Babylon.js 勉強会 vol.5
you
PRO
0
240
パワポ作るマンをMCP Apps化してみた
iwamot
PRO
0
300
Podcast配信で広がったアウトプットの輪~70人と音声発信してきた7年間~/outputconf_01
fortegp05
0
230
ADOTで始めるサーバレスアーキテクチャのオブザーバビリティ
alchemy1115
2
160
会社紹介資料 / Sansan Company Profile
sansan33
PRO
16
410k
Featured
See All Featured
Building a Modern Day E-commerce SEO Strategy
aleyda
45
9k
Have SEOs Ruined the Internet? - User Awareness of SEO in 2025
akashhashmi
0
310
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
61k
Kristin Tynski - Automating Marketing Tasks With AI
techseoconnect
PRO
0
210
Un-Boring Meetings
codingconduct
0
250
The Invisible Side of Design
smashingmag
302
51k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
49
9.9k
Bioeconomy Workshop: Dr. Julius Ecuru, Opportunities for a Bioeconomy in West Africa
akademiya2063
PRO
1
85
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.3k
Unsuck your backbone
ammeep
672
58k
A better future with KSS
kneath
240
18k
The Straight Up "How To Draw Better" Workshop
denniskardys
239
140k
Transcript
NLPコンペの知⾒を実務に 活かすために u++ (@upura0) Kaggle Google Quest Q&A Labeling 反省会
2020年02⽉28⽇ 1
本発表について 資料は公開済です(https://speakerdeck.com/upura) 「会場だけ」の情報もあります 「会場だけ」を除き、SNS・ブログでの⾔及もOK ⽬次 . コンペと実務 . ⾃作ライブラリ「Ayniy」 .
(会場だけ)実例 2
⾃⼰紹介 事業会社のデータサイエンティスト 法⼈向けデータ分析組織⽴ち上げ サービス企画・開発など Kaggle Kaggle Master (profile) PetFinder.my Adoption
Prediction コンペ優勝 『Kaggleに登録したら次にやること 〜 これだけやれば⼗ 分闘える!Titanicの先へ⾏く⼊⾨ 10 Kernel 〜』 『PythonではじめるKaggleスタートブック』 Weekly Kaggle News 3
1.コンペと実務 4
コンペと実務 コンペで得た知⾒を実務に還元できれば最⾼ 知⾒を活かしやすいよう、コンペと実務で共通の⾃作ライブラ リを使っている 課題: コンペ特化の複雑なpipelineは、実務だと逆に使いづらい コンペでは英語が多いが、実務では⽇本語が多い 5
2.⾃作ライブラリ「Ayniy」 6
Ayniy コンペでも実務でも使っている⾃作ライブラリ 「よくある処理」を共通インターフェースで⼿軽に ⽇本語&英語の⾃然⾔語処理にも対応 7
Ayniy? サドリディン・アイニー(1878年4⽉15⽇ - 1954年7⽉15 ⽇)は、ソビエト連邦タジク共和国(現:タジキスタン)の作 家、ウラマー。タジク語による著述活動を⾏い、ソビエト連 邦ではタジク・ソビエト⽂学の創始者として⾼い評価を受け た。 https://uz.wikipedia.org/wiki/Sadriddin_Ayniy 8
設計思想 train, test = PROCESSING(train: pd.DataFrame, test: pd.DataFrame, col_definition: dict,
option: dict) 9
⽇本語・英語の切り替え 10
共通インターフェース config.yamlの設定がしやすい All you need is yaml col_definition: id_col: 'PetID'
target_col: 'AdoptionSpeed' numerical_col: [ 'Age', ] categorical_col: [ 'Type', ] text_col: [ 'Description', ] 11
3.(会場だけ)実例 12
まとめ 13
まとめ コンペの知⾒を実務で活かすための⾃作ライブラリ「Ayniy」 を紹介 「Google Quest Q&A Labeling」で得られた知⾒も、実務で 活⽤していきたい 14