自然言語処理を役立てるのはなぜ難しいのか

自然言語処理を役立てるのはなぜ難しいのか Preferred Networks 海野裕也

2 2008: 東大情報理工コンピュータ科学専攻修士、自然言語処理 2008-2011: 日本アイ・ビー・エム（株）東京基礎研究所 2011-2016: Preferred Infrastructure • 分散機械学習Jubatus、自然言語処理、テキスト解析
2016-: Preferred Networks、リテール担当VP • OSS開発、対話、ロボット、物流ロボット、流通・小売自己紹介：海野裕也

Vision 自分たちの手で革新的かつ本質的な技術を開発し、未知なる領域にチャレンジしていく。私たちはソフトウェアとハードウェアを高度に融合し、自動車やロボットなどのデバイスをより賢く進化させます。常に変化する環境や状況に柔軟に対処できる賢いデバイスができれば、物理世界をリアルタイムにセンシングし、現実世界そのものが計算可能になります。技術を使って、自分たちが見たことが無い、まだ知らない世界を知りたい。すでにわかっている領域で勝負するのではなく、技術の力で想像を超えた世界に挑戦していきます。現実世界を計算可能にする Preferred Networks
Vision：

5 テキストマイニングは Nice to haveである

6 Q: 身の回りで自然言語処理の技術を使ったサービスは？

7 Q: その中で、月1000円以上払ったものは？

8 プロフェッショナル向けより一般人向けを

9 • SIGRAPH 2013のUCLAとディズニーの論文 • 雪のシミュレーション • どこからどうみても、 2013年にヒットしたあの
映画で使われている技術社会に影響を与える研究開発

10 10年くらい考えてきたことを話しますお金を払ってまで使っている自然言語処理のツールは非常に少ない。何故か？

11 自然言語処理はなぜ難しい

12 • 研究と開発の質的な違いとは • 言語処理固有の難しさとは • LLMが生み出された背景は？ • 言語処理の社会応用を考える鍵は今日考えたいこと

13 自然言語処理に関して色んなことが言われている近年の自然言語処理技術の発展は目まぐるしい 10年前に出来なかったことが出来るようになった LLMがブレークスルーをもたらした

14 研究と製品の致命的な違い研究の仮想敵は研究者製品の仮想敵は代替手段

15 （他の研究に比べて）すごい研究であることと、（他の手段に比べて）役に立たないこと、が両立する研究の罠

16 Q: 言語処理における代替手段とは？

17 言語処理の代替手段は人間

18 言語の正しさは、ふつう母語話者を基準に考える走る速度、持てる重さ、記憶できる量を超える機械を作れても、機械が人より流暢な言語を持つことは原理的にできない「言語」の意味で人間を超えることができない

言語そのもので勝負しない

20 精度よりも量や速度が重要量速度

という話を2年前にしたが・・・

23 文（単語列）が確率的に生成されていると仮定したモデル（統計的）言語モデルとは？文：吾輩は猫である © IkamusumeFan サンプリング

24 • 次の単語の出現確率が、直近単語のみで決定されると仮定する • 単語の出現頻度の割り算で簡単にパラメタ推定できる • 20年前はデファクトスタンダードだった昔はN-gram言語モデル P(w n
| w n-1 , …, w 1 ) ≒ P(w n | w n-1 , w n-2 )

25 • x（例：英語）からy（例：日本語）への変換を求める問題を考える • ベイズの定理で、変換の正しさと、言語の流暢性（言語モデル）に分解できる • 言語モデルはラベルなしデータで作れるので、流暢性を上げやすい言語モデルは生成系タスクで使われていた P(y|x)
∝ P(x|y) P(y)

26 当初みんなこんな気持ちだったよね？？？「日本語：吾輩は猫である、英語：・・・」に続く言葉を予想させたら英訳っぽいのできたよﾊﾊﾊ、ﾅｲｽｼﾞｮｰｸ 😂

27 LLMは言語処理なのか？？？ LLM 言語知識思考

28 言語の流暢性以外の価値が大きい知識の量思考の速度

29 大規模であることが重要だった T. Bron, et. al. Language Models are Few-Shot
Learners. NeurIPS2020. より

30 コンピュータはずっと速くなっていたんだし、この流れは予見できたのでは？ 🤔

2006 年

32 • AWSが出たのが2006年（M1のころ） • 自宅の通信はADSL（10Mbpsくらいしかでない）クラウド環境が出始め

33 • MapReduce論文が出たのが2006年、Hadoopも同じ頃に出て、個人で分散計算環境の構築ができるようになった分散計算が流行り始め

34 • 2007年にCUDAが初めて出た • その前後でGPGPUの存在は知っていたが、気の狂ったことをする人がいるものだと思っていた • 当時の言語処理の機械学習は疎行列演算が多く、データ量に対して演算が少なかった
GPGPUが出始め © Berkut

35 • 2006年頃から、立て続けに新しい手法が出てきた • それまでは、全データで勾配を計算するバッチ学習が主流（L-BFGSなど）だったが、以降100-1000倍くらい学習が速くなったオンライン学習が流行り始め

36 深層学習ライブラリが出始め • Theanoが2007年、Torch（Lua製）は2002年に最初のリリース • TensorFlowもPyTorchも当然無い • そもそもニューラルネット自体やっている人がほとんどいない • 手計算で微分して、自分で実装する方が普通だった

37 データ量の対数でしか精度が上がっていなかった J. Suzuki, H. Isozaki, Semi-Supervised Sequential Labeling and
Segmentation using Giga-word Scale Unlabeled Data. ACL08より

今、当たり前にあるものが何一つなかった

もしみなさんが、未来の「LLM」を見つけようとしているのであれば、今の時点であれはちょっと・・・と思うようなテーマに飛びつくしか無い（必要条件であって十分条件じゃない）

40 • 研究室の同期が学習ベース（ロジスティック回帰）の言語モデルの研究を修論でしていた • 京大コーパス（たしか）の学習に1週間かかって、精度がでなくて頭を抱えていた記憶がある・・・ • 今思い返せば圧倒的な先見の明であった、が・・・仮に手を出したら幸せだったのだろうか？
😇

少し見方を変えよう

42 あらゆるレイヤーの進歩によってLLMが可能になったとも言えるコンピュータ科学の進歩がLLMを生み出したアルゴリズムバッチ学習からオンライン学習計算機環境オンプレからクラウド、クラスタプログラミング TFやPyTorchの登場開発環境
CUDAなどの開発環境の進化プロセッサ CPUからGPUへ

未来の「LLM」も単一の技術ではなく、コンピュータ科学の総合格闘技になる、かも

44 • 深層学習登場によって、演算性能がネックとなった • Transformerの登場以降、決定的にメモリ帯域が重要になった • 結果的にプロセッサに求められる要件が大きく変わろうとしてる LLM時代はメモリ帯域ネックへ © smial
(talk) © Berkut ?

45 • 3D積層メモリは物理的にデータとメモリが近いため圧倒的高メモリ帯域を実現可能 • 世界最速のLLM推論を目指す積層メモリを使って超高メモリ帯域を目指す

46 ITの仕事は二極化が進む（？）みんなが使う強い寡占の基盤技術例：プロセッサ、DB、コンパイラ、… 各業界に特化した課題解決例：アプリ、ソリューション、コンサル、…

47 言葉そのものの意義を考える書き言葉知識の蓄積話し言葉意図の伝達・新聞、本、Web ・検索や解析など、知識の利用が目的・会話、指示、交渉・意図や指示の理解など、やりとりが目的

48 インターフェースとしての自然言語処理記号の世界物理の世界・画像処理・センサー・制御・プランニング・自然言語処理・音声処理
・UI

49 言語そのものが道具である言語背後の問題

52 • 精度以外の部分で勝負する • LLMはコンピュータ科学の総合格闘技 • 道具と割り切って特定ドメインに飛び込む道も前半のまとめ

53 未来の話

54 チャンスかピンチか（なにかすごいこと）やるぞー失敗しそうだ・・・エラい人ボク

55 本当にリスクかどうか考えるうまくいったやらなかったうまくいかなかった・未踏の挑戦に貢献できた・他の仕事ができる・うまくいったときに公開する・解雇される（本当に？）
・会社が潰れる（本当に？）

56 挑戦できるときに挑戦できるか技術の下地適切な投資と期待実行できる環境

57 • 人工知能は閉塞感があり、できることは限られていた • 誰も技術に期待しておらず、「そういうのはいらない」と言われ続けた • 特定の技術領域でも難しすぎて、分野横断的なチームを構成できない 15年前の「人工知能」はどうだったか

58 挑戦できるタイミングは一瞬 http://blog.livedoor.jp/lunarmodule7/archives/4504511.html • ちょうど今、一部の分野では十分な精度になるかどうかの過渡期 • 技術は進歩し続ける、できることが減ることはない •
挑戦できるタイミングは一瞬、早すぎても遅すぎてもだめ

61 • 私が中高生の時（20年前）にMDは流行した • 高校生のときにMP3プレイヤーが出現したが、1, 2曲しか入らず、絶対に流行らないと思った • 今、「ちょっと頭おかしい」とおもうような技術に投資するくらいがちょうどよい
未来の当たり前は今の非常識

62 • 探索と活用のトレードオフ • 全部そこそこな状態は、過剰にリスクを回避している • 組織が失敗に寛容にならないと一番良い期待値を取れない全部成功しなくていい 50%は失敗しないといけません新卒のときに言われたことば

64 • 社内技術カンファレンス：年3回 • テックトーク、技術トーク：隔週 • 読書会：週1回 • 社内勉強会：不定期技術は1日にしてならず
継続的に技術を生み出せる会社風土を醸成する

65 最後に

66 若い人のほうが真実を知っている

67 We are hiring!! 26年卒　新卒採用 • 本日より募集開始 ◦ Ex：Engineer、Reseacher、MN-Core Softwear
Engineer • ホームページからご応募ください 2025年度　夏季インターンシップ • 来春ホームページより情報公開予定 career page スーパーコンピューターを自社開発深層学習用プロセッサー MN-Core X（旧twitter）

Making the real world computable

自然言語処理を役立てるのはなぜ難しいのか

自然言語処理を役立てるのはなぜ難しいのか

More Decks by Preferred Networks

Other Decks in Technology

Featured

Transcript