Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
自然言語処理を役立てるのはなぜ難しいのか
Search
Preferred Networks
PRO
October 18, 2024
Technology
23
7k
自然言語処理を役立てるのはなぜ難しいのか
PFNの海野裕也が2024/10/15に東大大学院「自然言語処理応用」にゲスト講師として登壇した際の講義資料です。
Preferred Networks
PRO
October 18, 2024
Tweet
Share
More Decks by Preferred Networks
See All by Preferred Networks
LinuxとMN-Coreコンパイラランタイムにおける_プログラムの起動プロセスとその比較
pfn
PRO
0
5
KubeCon NA 2024 Recap: Managing and Distributing AI Models Using OCI Standards and Harbor / Kubernetes Meetup Tokyo #68
pfn
PRO
0
120
実践/先取り「入門 Kubernetes Validating/Mutating Admission Policy」 / CloudNative Days Winter 2024
pfn
PRO
1
170
次のコンテナセキュリティの時代 - User Namespace With a Pod / CloudNative Days Winter 2024
pfn
PRO
5
600
LLMを「速く」「安く」 動かすには / CloudNative Days Winter 2024
pfn
PRO
6
1.4k
Distributed Cache Empowers AI/ML Workloads on Kubernetes Cluster / KubeCon + CloudNativeCon North America 2024
pfn
PRO
1
86
PFN Company Deck
pfn
PRO
2
190
PFNにおけるアクセラレータ間通信の実際 / MPLS Japan 2024
pfn
PRO
1
110
DFTの実践的基礎理論
pfn
PRO
2
210
Other Decks in Technology
See All in Technology
OpsJAWS32 re:Invent 2024 Ops系アップデートまとめ
takahirohori
0
110
宇宙最速のランチRecap LT会(AWS re:Invent 2024)
watany
1
410
【AWS re:Invent 2024】Amazon Bedrock アップデート総まとめ
minorun365
PRO
7
680
My Generation 年配者がこの先生きのこるには (Developers CAREER Boost 2024 Edition)/My Generation How elder engineers can survive
kwappa
3
390
大幅アップデートされたRagas v0.2をキャッチアップ
os1ma
1
140
職能を超えたモブプログラミングが品質に与えた良い影響
tonionagauzzi
2
310
ABEMA スマートテレビアプリケーションのパフォーマンス改善 〜業界トップクラスを目指して〜 / Performance Improvements on ABEMA Smart TV App
nodaguti
0
220
イベントをどう管理するか
mikanichinose
1
120
実務につなげる数理最適化
recruitengineers
PRO
4
430
re:Invent2024のIaC周りのアップデート&セッションの共有/around-re-invent-2024-iac-updates
tomoki10
0
780
A/Aテストにおけるサンプルサイズ/japanr2024
nikkei_engineer_recruiting
1
630
ナレッジベースはどのようにSQLを生成するのか / Knowledge Bases supports structed data retrieval
hayaok3
2
180
Featured
See All Featured
Put a Button on it: Removing Barriers to Going Fast.
kastner
59
3.6k
Building Your Own Lightsaber
phodgson
103
6.1k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
26
1.8k
Raft: Consensus for Rubyists
vanstee
136
6.7k
Build your cross-platform service in a week with App Engine
jlugia
229
18k
Java REST API Framework Comparison - PWX 2021
mraible
PRO
28
8.3k
Faster Mobile Websites
deanohume
305
30k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
38
1.9k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
The Straight Up "How To Draw Better" Workshop
denniskardys
232
140k
Product Roadmaps are Hard
iamctodd
PRO
49
11k
Large-scale JavaScript Application Architecture
addyosmani
510
110k
Transcript
自然言語処理を 役立てるのはなぜ難しいの か Preferred Networks 海野 裕也
2 2008: 東大情報理工コンピュータ科学専攻修士、自然言語処理 2008-2011: 日本アイ・ビー・エム(株)東京基礎研究所 2011-2016: Preferred Infrastructure • 分散機械学習Jubatus、自然言語処理、テキスト解析
2016-: Preferred Networks、リテール担当VP • OSS開発、対話、ロボット、物流ロボット、流通・小売 自己紹介:海野 裕也
3
Vision 自分たちの手で革新的かつ本質的な技術を開発し、未知なる領域にチャレンジしていく。 私たちはソフトウェアとハードウェアを高度に融合し、自動車やロボットなどのデバイスをより 賢く進化させます。常に変化する環境や状況に柔軟に対処できる賢いデバイスができれば、物理 世界をリアルタイムにセンシングし、現実世界そのものが計算可能になります。 技術を使って、自分たちが見たことが無い、まだ知らない世界を知りたい。すでにわかっている 領域で勝負するのではなく、技術の力で想像を超えた世界に挑戦していきます。 現実世界を計算可能にする Preferred Networks
Vision:
5 テキストマイニングは Nice to haveである
6 Q: 身の回りで自然言語処理の 技術を使ったサービスは?
7 Q: その中で、月1000円以上 払ったものは?
8 プロフェッショナル向けより一般人向けを
9 • SIGRAPH 2013のUCLAと ディズニーの論文 • 雪のシミュレーション • どこからどうみても、 2013年にヒットしたあの
映画で使われている技術 社会に影響を与える研究開発
10 10年くらい考えてきたことを話します お金を払ってまで使っている自然言語 処理のツールは非常に少ない。 何故か?
11 自然言語処理はなぜ難しい
12 • 研究と開発の質的な違いとは • 言語処理固有の難しさとは • LLMが生み出された背景は? • 言語処理の社会応用を考える鍵は 今日考えたいこと
13 自然言語処理に関して色んなことが言われている 近年の自然言語処理技術の発展は目まぐるしい 10年前に出来なかったことが出来るようになった LLMがブレークスルーをもたらした
14 研究と製品の致命的な違い 研究の仮想敵は研究者 製品の仮想敵は代替手段
15 (他の研究に比べて) すごい研究であることと、 (他の手段に比べて) 役に立たないこと、 が両立する 研究の罠
16 Q: 言語処理における代替手段とは?
17 言語処理の代替手段は人間
18 言語の正しさは、ふつう母語話者を基準に考える 走る速度、持てる重さ、記憶できる量を超える機械を 作れても、機械が人より流暢な言語を持つことは原理 的にできない 「言語」の意味で人間を超えることができない
言語そのもので勝負しない
20 精度よりも量や速度が重要 量 速度
という話を2年前にしたが・・・
None
23 文(単語列)が確率的に生成されていると仮定したモデル (統計的)言語モデルとは? 文: 吾輩は猫である © IkamusumeFan サンプリング
24 • 次の単語の出現確率が、直近単語のみで決定されると仮定する • 単語の出現頻度の割り算で簡単にパラメタ推定できる • 20年前はデファクトスタンダードだった 昔はN-gram言語モデル P(w n
| w n-1 , …, w 1 ) ≒ P(w n | w n-1 , w n-2 )
25 • x(例:英語)からy(例:日本語)への変換を求める問題を考える • ベイズの定理で、変換の正しさと、言語の流暢性(言語モデル)に分解 できる • 言語モデルはラベルなしデータで作れるので、流暢性を上げやすい 言語モデルは生成系タスクで使われていた P(y|x)
∝ P(x|y) P(y)
26 当初みんなこんな気持ちだったよね??? 「日本語:吾輩は猫である、英語:・・・」 に続く言葉を予想させたら英訳っぽいのできたよ ハハハ、ナイスジョーク 😂
27 LLMは言語処理なのか??? LLM 言語 知識 思考
28 言語の流暢性以外の価値が大きい 知識の 量 思考の 速度
29 大規模であることが重要だった T. Bron, et. al. Language Models are Few-Shot
Learners. NeurIPS2020. より
30 コンピュータはずっと速くなっていたんだ し、この流れは予見できたのでは? 🤔
2006 年
32 • AWSが出たのが2006年(M1のころ) • 自宅の通信はADSL(10Mbpsくらいしかでない) クラウド環境が出始め
33 • MapReduce論文が出たのが2006年、Hadoopも同じ頃に出て、個人で 分散計算環境の構築ができるようになった 分散計算が流行り始め
34 • 2007年にCUDAが初めて出た • その前後でGPGPUの存在は知っていた が、気の狂ったことをする人がいるものだ と思っていた • 当時の言語処理の機械学習は疎行列演算が 多く、データ量に対して演算が少なかった
GPGPUが出始め © Berkut
35 • 2006年頃から、立て続けに新しい手法が出てきた • それまでは、全データで勾配を計算するバッチ学習が主流(L-BFGSな ど)だったが、以降100-1000倍くらい学習が速くなった オンライン学習が流行り始め
36 深層学習ライブラリが出始め • Theanoが2007年、Torch(Lua製)は2002年に最初のリリース • TensorFlowもPyTorchも当然無い • そもそもニューラルネット自体やっている人がほとんどいない • 手計算で微分して、自分で実装する方が普通だった
37 データ量の対数でしか精度が上がっていなかった J. Suzuki, H. Isozaki, Semi-Supervised Sequential Labeling and
Segmentation using Giga-word Scale Unlabeled Data. ACL08より
今、当たり前にあるものが 何一つなかった
もしみなさんが、未来の「LLM」を見つけようと しているのであれば、今の時点であれはちょっと ・・・と思うようなテーマに飛びつくしか無い (必要条件であって十分条件じゃない)
40 • 研究室の同期が学習ベース(ロジスティック回帰)の言語モデルの研究 を修論でしていた • 京大コーパス(たしか)の学習に1週間かかって、精度がでなくて頭を 抱えていた記憶がある・・・ • 今思い返せば圧倒的な先見の明であった、が・・・ 仮に手を出したら幸せだったのだろうか?
😇
少し見方を変えよう
42 あらゆるレイヤーの進歩によってLLMが可能になったとも言える コンピュータ科学の進歩がLLMを生み出した アルゴリズム バッチ学習からオンライン学習 計算機環境 オンプレからクラウド、クラスタ プログラミング TFやPyTorchの登場 開発環境
CUDAなどの開発環境の進化 プロセッサ CPUからGPUへ
未来の「LLM」も単一の技術ではなく、 コンピュータ科学の総合格闘技になる、かも
44 • 深層学習登場によって、演算性能がネックとなった • Transformerの登場以降、決定的にメモリ帯域が重要になった • 結果的にプロセッサに求められる要件が大きく変わろうとしてる LLM時代はメモリ帯域ネックへ © smial
(talk) © Berkut ?
45 • 3D積層メモリは物理的にデータとメモリが近いため圧倒的高メモリ帯域 を実現可能 • 世界最速のLLM推論を目指す 積層メモリを使って超高メモリ帯域を目指す
46 ITの仕事は二極化が進む(?) みんなが使う強い寡占の基盤技術 例:プロセッサ、DB、コンパイラ、… 各業界に特化した課題解決 例:アプリ、ソリューション、コンサル、…
47 言葉そのものの意義を考える 書き言葉 知識の蓄積 話し言葉 意図の伝達 ・新聞、本、Web ・検索や解析など、知識の利用が目的 ・会話、指示、交渉 ・意図や指示の理解など、やりとりが目的
48 インターフェースとしての自然言語処理 記号の世界 物理の世界 ・画像処理 ・センサー ・制御 ・プランニング ・自然言語処理 ・音声処理
・UI
49 言語そのものが道具である 言語 背後の 問題
© 2019-2024 Preferred Networks, Inc.
© 2019-2024 Preferred Networks, Inc. 51
52 • 精度以外の部分で勝負する • LLMはコンピュータ科学の総合格闘技 • 道具と割り切って特定ドメインに飛び込む道も 前半のまとめ
53 未来の話
54 チャンスかピンチか (なにかすごいこと)やるぞー 失敗しそうだ・・・ エラい人 ボク
55 本当にリスクかどうか考える うまくいった やらなかった うまくいかな かった ・未踏の挑戦に貢献できた ・他の仕事ができる ・うまくいったときに公開する ・解雇される(本当に?)
・会社が潰れる(本当に?)
56 挑戦できるときに挑戦できるか 技術の下地 適切な投資と期待 実行できる環境
57 • 人工知能は閉塞感があり、できることは限られていた • 誰も技術に期待しておらず、「そういうのはいらない」と 言われ続けた • 特定の技術領域でも難しすぎて、分野横断的なチームを構 成できない 15年前の「人工知能」はどうだったか
58 挑戦できるタイミングは一瞬 http://blog.livedoor.jp/lunarmodule7/archives/4504511.html • ちょうど今、一部の分野では十分 な精度になるかどうかの過渡期 • 技術は進歩し続ける、できること が減ることはない •
挑戦できるタイミングは一瞬、早 すぎても遅すぎてもだめ
59
60 © Kuha455405
61 • 私が中高生の時(20年前)にMDは流行した • 高校生のときにMP3プレイヤーが出現したが、1, 2曲しか 入らず、絶対に流行らないと思った • 今、「ちょっと頭おかしい」とおもうような技術に投資す るくらいがちょうどよい
未来の当たり前は今の非常識
62 • 探索と活用のトレードオフ • 全部そこそこな状態は、過剰にリスクを回避している • 組織が失敗に寛容にならないと一番良い期待値を取れない 全部成功しなくていい 50%は失敗しないといけません 新卒のときに言われたことば
63
64 • 社内技術カンファレンス:年3回 • テックトーク、技術トーク:隔週 • 読書会:週1回 • 社内勉強会:不定期 技術は1日にしてならず
継続的に技術を生み出せる 会社風土を醸成する
65 最後に
66 若い人のほうが真実を知っている
67 We are hiring!! 26年卒 新卒採用 • 本日より募集開始 ◦ Ex:Engineer、Reseacher、MN-Core Softwear
Engineer • ホームページからご応募ください 2025年度 夏季インターンシップ • 来春ホームページより情報公開予定 career page スーパーコンピューターを自社開発 深層学習用プロセッサー MN-Core X(旧twitter)
Making the real world computable