Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
LT at nlp_career
Search
yag_ays
July 10, 2019
Programming
350
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
LT at nlp_career
yag_ays
July 10, 2019
More Decks by yag_ays
See All by yag_ays
対話型AIの構築における工夫とデータセットの重要性 - 素早くデータを構築し検証するためには
yag_ays
3
7.1k
目と耳を持った自然言語処理 - スタートアップにおける価値創出のために
yag_ays
1
3.9k
時間情報表現抽出とルールベース解析器のこれから / Temporal Expression Analysis in Japanese and Future of Rule-based Approach
yag_ays
1
2.3k
Pythonで始める ドキュメント・インテリジェンス入門 / Introduction to Document Intelligence with Python
yag_ays
9
9.2k
"医者の言葉、患者の言葉、エンジニアの言葉" / MNTSQ Ubie Vertical ai
yag_ays
3
14k
Review: "Recommending Investors for Crowdfunding Projects"
yag_ays
1
1.2k
Other Decks in Programming
See All in Programming
Inside Stream API
skrb
1
730
ふつうのFeature Flag実践入門
irof
7
4k
Datadog × OpenTelemetry 入門と実践のあいだ
kn_to_maxpno
1
160
技術記事、 専門家としてのプログラマ、 言語化
mizchi
13
6.1k
脅威をエンジニアリングの糧にして――現場編 / Turning Threats into Engineering Fuel — Field Edition
nrslib
0
280
Vite+ Unified Toolchain for the Web
naokihaba
0
310
Developing with AI Agents — Codex, Claude Code & Cowork Practical Guide
x5gtrn
PRO
0
1.3k
ECSアプリログをFireLensでコスト削減しようとしたけど諦めた話 in Fargate×Node.js
akihisaikeda
2
4.2k
AIだと陥りがちなJakarta EE最新技術への移行時の落とし穴と解決策
tnagao7
0
110
正しくソフトウェアを作る、前提を疑うための認知の視点 / doubt-premise
minodriven
21
6.7k
軽量Java基盤の設計 DIコンテナに頼らない、長期保守と1秒起動の実現 JJUG CCC 2026 Spring
macha64
0
530
気圧・高度・GPSを記録&可視化するアプリ「Koudo」を作った話
hjmkth
1
270
Featured
See All Featured
Writing Fast Ruby
sferik
630
63k
Public Speaking Without Barfing On Your Shoes - THAT 2023
reverentgeek
1
420
Dominate Local Search Results - an insider guide to GBP, reviews, and Local SEO
greggifford
PRO
0
190
AI Search: Where Are We & What Can We Do About It?
aleyda
0
7.6k
How to Think Like a Performance Engineer
csswizardry
28
2.7k
The Straight Up "How To Draw Better" Workshop
denniskardys
239
140k
Building the Perfect Custom Keyboard
takai
2
800
Optimizing for Happiness
mojombo
378
71k
Making Projects Easy
brettharned
120
6.7k
Navigating Weather and Climate Data
rabernat
0
220
The AI Revolution Will Not Be Monopolized: How open-source beats economies of scale, even for LLMs
inesmontani
PRO
3
3.5k
Leadership Guide Workshop - DevTernity 2021
reverentgeek
1
300
Transcript
1 yag_ays Machine Learning Engineer @Sansan, Inc. ! NLP研究室出⾝ (Bioinformatics)
! 博⼠号
2 https://yag-ays.github.io/
pytorchでBERTの⽇本語学習済みモデルを利⽤する - ⽂章埋め込み 編 / SWEM: 単語埋め込みのみを使うシンプルな⽂章埋め込み深層 学習時代の⾔語判定の最新動向 / Fasttextを⽤いた⾔語判定
/ MeCabの形態素解析の結果から正規表現を使って品詞列を抜き出 すmecabpr / 単語埋め込みにおけるout-of-vocabularyの対応 - magnitudeの初期化」 / 後処理のみで単語ベクトルの性能を向上さ せるALL-BUT-THE-TOPを使った⽇本語学習済み分散表現 / 語彙 を限定して単語ベクトルのモデルサイズを⼩さくするminify_w2v / ⽇本語Wikipediaで学習したdoc2vecモデル / Wikipediaの記事ごと のページビューを取得する / Word Embedding based Edit Distanceの実装 / 学習済み分散表現をTensorBoardで可視化する (gensim/PyTorch/tensorboardX) / Unicode絵⽂字の⽇本語読み /キーワード/分類辞書 / 漢字を構成する部⾸/偏旁のデータセッ ト / Wikipedia CirrusSearchのダンプデータを利⽤する / ⽂字の図 3
もっと⽇本語が使える 論⽂実装をしてくれ、頼む! 4
英語を対象にした英語の論⽂が出る 英語を対象にした実装が公開される ⽇本語で書かれた論⽂解説が出る ⽇本語を対象にした実装が出る 5
論⽂解説してる⼈ → 実装してくれ! 実装してる⼈ → 公開してくれ! 6 ググって出てこなくても、Githubで論⽂名やロジック名で 検索すると意外と出てくる場合もある
良いこと 1. 動く!使える!試せる! プロダクト作るでしょ?実験するでしょ? 2. フィードバック貰える 意⾒を貰える、間違っていれば指摘してくれる (場合もある) 3 ⼈のためになる
⽇本語という⼩さい⾔語の中で⾞輪の再発明してる場合じゃねぇ 4. 転職に有利 それがあなたのポートフォリオになる(コードを書けるかはものすごい⼤事) 7
悪いこと 1. ない 8
まとめ 9 yag_aysです。ブログやってます ⽇本語使える実装しよう NLPエンジニアコミュニティを盛 り上げていきましょう