Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
NLPコンペの知見を実務に活かすために / introduction-ayniy
Search
Shotaro Ishihara
February 22, 2020
Technology
4
5.3k
NLPコンペの知見を実務に活かすために / introduction-ayniy
「Kaggle Google Quest Q&A Labeling 反省会」(
https://connpass.com/event/167595/
) の発表資料
Shotaro Ishihara
February 22, 2020
Tweet
Share
More Decks by Shotaro Ishihara
See All by Shotaro Ishihara
Semantic Shift Stability: 学習コーパス内の単語の意味変化を用いた事前学習済みモデルの時系列性能劣化の監査
upura
0
12
日本語ニュース記事要約支援に向けたドメイン特化事前学習済みモデルの構築と活用 / t5-news-summarization
upura
0
13
Web からのデータ収集と探究事例の紹介 / no94_jsai_seminar
upura
0
210
記者・編集者との協働:情報技術が変えるニュースメディア / Kaishi PU 2024
upura
0
84
ニュースメディアにおける生成 AI の活用と開発 / UTokyo Lecture Business Introduction
upura
0
270
マルチモーダル AI 実装の課題と解決策 / Developer X Summit
upura
0
300
ニュースメディアにおける事前学習済みモデルの可能性と課題 / IBIS2024
upura
3
880
「巨人の肩の上」で自作ライブラリを作る技術 / pyconjp2024
upura
3
1k
Quantifying Memorization and Detecting Training Data of Pre-trained Language Models using Japanese Newspaper
upura
0
75
Other Decks in Technology
See All in Technology
Beyond {shiny}: The Future of Mobile Apps with R
colinfay
1
370
Langchain4j y Ollama - Integrando LLMs con programas Java @ Commit Conf 2025
deors
1
130
Automatically generating types by running tests
sinsoku
1
430
7,000名規模の 人材サービス企業における プロダクト戦略・戦術と課題 / Product strategy, tactics and challenges for a 7,000-employee staffing company
techtekt
0
260
SDカードフォレンジック
su3158
0
100
Would you THINK such a demonstration interesting ?
shumpei3
1
160
Стильный код: натуральный поиск редких атрибутов по картинке. Юлия Антохина, Data Scientist, Lamoda Tech
lamodatech
0
300
【日本Zabbixユーザー会】LLDを理解するときの勘所 〜LLDのある世界を楽しもう!〜
yoshitake945
0
120
古き良き Laravel のシステムは関数型スタイルでリファクタできるのか
leveragestech
1
630
こんなデータマートは嫌だ。どんな? / waiwai-data-meetup-202504
shuntak
6
1.7k
Spring Bootで実装とインフラをこれでもかと分離するための試み
shintanimoto
4
370
Startups On Rails 2025 @ Tropical on Rails
irinanazarova
0
250
Featured
See All Featured
Agile that works and the tools we love
rasmusluckow
328
21k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
233
17k
YesSQL, Process and Tooling at Scale
rocio
172
14k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
32
2.2k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
356
30k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
45
9.5k
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.2k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
248
1.3M
StorybookのUI Testing Handbookを読んだ
zakiyama
29
5.6k
GraphQLの誤解/rethinking-graphql
sonatard
71
10k
Product Roadmaps are Hard
iamctodd
PRO
52
11k
Transcript
NLPコンペの知⾒を実務に 活かすために u++ (@upura0) Kaggle Google Quest Q&A Labeling 反省会
2020年02⽉28⽇ 1
本発表について 資料は公開済です(https://speakerdeck.com/upura) 「会場だけ」の情報もあります 「会場だけ」を除き、SNS・ブログでの⾔及もOK ⽬次 . コンペと実務 . ⾃作ライブラリ「Ayniy」 .
(会場だけ)実例 2
⾃⼰紹介 事業会社のデータサイエンティスト 法⼈向けデータ分析組織⽴ち上げ サービス企画・開発など Kaggle Kaggle Master (profile) PetFinder.my Adoption
Prediction コンペ優勝 『Kaggleに登録したら次にやること 〜 これだけやれば⼗ 分闘える!Titanicの先へ⾏く⼊⾨ 10 Kernel 〜』 『PythonではじめるKaggleスタートブック』 Weekly Kaggle News 3
1.コンペと実務 4
コンペと実務 コンペで得た知⾒を実務に還元できれば最⾼ 知⾒を活かしやすいよう、コンペと実務で共通の⾃作ライブラ リを使っている 課題: コンペ特化の複雑なpipelineは、実務だと逆に使いづらい コンペでは英語が多いが、実務では⽇本語が多い 5
2.⾃作ライブラリ「Ayniy」 6
Ayniy コンペでも実務でも使っている⾃作ライブラリ 「よくある処理」を共通インターフェースで⼿軽に ⽇本語&英語の⾃然⾔語処理にも対応 7
Ayniy? サドリディン・アイニー(1878年4⽉15⽇ - 1954年7⽉15 ⽇)は、ソビエト連邦タジク共和国(現:タジキスタン)の作 家、ウラマー。タジク語による著述活動を⾏い、ソビエト連 邦ではタジク・ソビエト⽂学の創始者として⾼い評価を受け た。 https://uz.wikipedia.org/wiki/Sadriddin_Ayniy 8
設計思想 train, test = PROCESSING(train: pd.DataFrame, test: pd.DataFrame, col_definition: dict,
option: dict) 9
⽇本語・英語の切り替え 10
共通インターフェース config.yamlの設定がしやすい All you need is yaml col_definition: id_col: 'PetID'
target_col: 'AdoptionSpeed' numerical_col: [ 'Age', ] categorical_col: [ 'Type', ] text_col: [ 'Description', ] 11
3.(会場だけ)実例 12
まとめ 13
まとめ コンペの知⾒を実務で活かすための⾃作ライブラリ「Ayniy」 を紹介 「Google Quest Q&A Labeling」で得られた知⾒も、実務で 活⽤していきたい 14