Upgrade to Pro — share decks privately, control downloads, hide ads and more …

DeepSeekとは?何がいいの? - Databricksと学ぶDeepSeek! 〜これ...

DeepSeekとは?何がいいの? - Databricksと学ぶDeepSeek! 〜これからのLLMに備えよ!〜

こちらのイベントでお話しした資料です。

Databricksと学ぶDeepSeek! 〜これからのLLMに備えよ!〜 - connpass https://redbrick.connpass.com/event/345123/

Takaaki Yayoi

March 04, 2025
Tweet

More Decks by Takaaki Yayoi

Other Decks in Technology

Transcript

  1. ©2025 Databricks Inc. — All rights reserved 1 DeepSeekとは?何 がいいの?Databricksと

    学ぶDeepSeek! 〜これからのLLMに備えよ!〜 Taka Yayoi 2025/3/4 1
  2. ©2025 Databricks Inc. — All rights reserved 自己紹介 弥生 隆明

    (やよい たかあき) シニア スペシャリスト ソリューションアーキテクト ▪ 2020年からデータブリックス ジャパンにお いて、プレセールス、POCに従事 ▪ 前職はコンサル、総合電機メーカー にてデータ分析・Webサービス構築 などに従事。インド赴任経験あり。 ▪ Databricks Certified (Data Engineer | Machine Learning) Professional, Generative AI Engineer Associate ▪ Qiitaでいろいろ書いています。 2 @taka_aki
  3. ©2025 Databricks Inc. — All rights reserved • DeepSeek-R1は、DeepSeekシリーズの最新モデルであり、推論能力に 特化した大規模言語モデル(LLM)です。

    • 前モデルであるDeepSeek-V3をベースとし、強化学習(RL) を適用する ことで、推論性能を大幅に向上させています。 • また、DeepSeek-R1オープンソース・低価格でありながら、推論、数学、コーディ ングといったタスクにおいて、OpenAI-o1と同等の性能 を達成 しています。 3 DeepSeekとは DeepSeek-R1とは?性能概要や使い方、料金体系を徹底解説! | AI総合研究所
  4. ©2025 Databricks Inc. — All rights reserved • 監督付きファインチューニング( SFT)を前提とせずに、ベースモデルに直接強化学習(

    RL)を適用し ます。このアプローチにより、モデルは複雑な問題を解決するための思考の連鎖 (CoT)を探索できるようになり、DeepSeek-R1-Zeroの開発に至りました。 • DeepSeek-R1-Zeroは、自己検証、反省、長いCoTの生成などの能力を示し、研究 コミュニティにとって重要なマイルストーンとなっています。特に、LLMの推論能力がSFT なしで純粋にRLを通じて促進されることを検証した最初のオープンリサーチです。この ブレークスルーは、この分野の将来の進展への道を開きます。 • 私たちは、DeepSeek-R1を開発するためのパイプラインを紹介します。このパイプラインは、改善され た推論パターンを発見し、人間の好みに合わせることを目的とした2つのRLステージと、モデルの推論 および非推論能力の種 となる2つのSFTステージを組み込んでいます。この パイプラインは、より優れたモデルを作成することで業界に利益をもたらすと信じています。 4 技術的特徴 事後トレーニング:ベースモデルに対する大規模な強化学習
  5. ©2025 Databricks Inc. — All rights reserved • 私たちは、大規模モデルの推論パターンを小規模モデルに蒸留することで、RLを通じて小規模モデル で発見された推論パターンと比較して、より良い性能を得られることを示します。

    オープンソースのDeepSeek-R1およびそのAPIは、将来的により良い小規模モデルを蒸留するために 研究コミュニティに貢献します。 DeepSeek-R1によって生成された推論データを使用 して、研究コミュニティで広く使用されているいくつかの密モデルをファインチューン しました。評価結果は、蒸留された小規模な密モデルがベンチマークで非常に優れた性能を 発揮することを示しています。Qwen2.5およびLlama3シリーズに基づく1.5B、7B、8B、14B、32B、およ び70Bのチェックポイントをコミュニティにオープンソース化します。 5 技術的特徴 蒸留: 小さなモデルも強力になれる
  6. ©2025 Databricks Inc. — All rights reserved DeepSeekに関する日本の最近のニュースをまとめると以下のようになります: • 中国のAI企業DeepSeekが開発した生成AIモデル「DeepSeek-R1」が1月に発表され世界的な注目を集めています

    1,2。 • DeepSeekの性能はOpenAIの最新モデルと同等とされ、NVIDIAの時価総額を約90兆円減少させるほどの影響を与えま した 1,2。 • 日本政府は2月6日、各省庁にDeepSeekの業務利用に関する注意喚起を行いました 3。 • 主な懸念は機密情報の漏洩リスクで、 DeepSeekのプライバシーポリシーによると、入力情報やアップロードファイルの内容が収集 される可能性があります 3。 • 日本の公的機関に対し、DeepSeek利用のリスク評価を慎重に行うよう求めています 3。 • DeepSeekは日本でもダウンロード可能で、アプリストアでトップを記録しています 4。 • 一方で、DeepSeekのデータ不正利用疑惑や情報保護の不備が指摘されており、日本政府の対応が注目されています 6。 • 専門家は、DeepSeekに限らず、すべてのAIユーザーがリスクに留意すべきだと指摘しています 8。 引用: 1. https://note.com/investmentbridge/n/n2a54537bf6e8 2. https://note.com/chaen_channel/n/n8f3ed2f58b32 3. https://viva-eureka.com/blog/eureka-dx/14035/ 4. https://www.tokyo-np.co.jp/article/382611 5. https://aismiley.co.jp/ai_news/what-is-deepseek/ 6. https://www.nikkei.com/article/DGXZQOUA1053V0Q5A210C2000000/ 7. https://www.nikkei.com/article/DGXZQOGM182YI0Y5A210C2000000/ 8. https://news.yahoo.co.jp/articles/e3b9e97414fe5011d09c59365498cbbea2a34fdc 6 何がすごいのか 日本でのDeepSeek関係のニュースをPerprexityにまとめてもらいました
  7. ©2025 Databricks Inc. — All rights reserved • OpenAIのモデル構築に要したコストよりもはるかに安いコスト で同等の

    モデルを構築した(と受け止められた) • GPT-4のトレーニングは1億ドル、DeepSeekは600万ドル • 結果としてAPI費用も安価 • 100万トークンで0.14ドルから、OpenAIは7.5ドル • しかも、モデルはOSSとしてHuggingFaceに公開された。速攻、CyberAgentが 蒸留したモデルを公開、2/13にはrinnaも。 • CSPもサポートを始めている。Databricksも(ブログ記事) • AIテックは米国一強ではないと受け止められた。改めてオープンソース モデルすごいとなった。 7 何がすごいのか コスト、オープン性、新たな手法などが大きな話題になりました
  8. ©2025 Databricks Inc. — All rights reserved 8 何がすごいのか DeepSeek

    vs. OpenAI: What is DeepSeek? What does it do? | Mindflow Blog 高速、ドメイン特化 オープンソース、ローカルへの デプロイ 汎用、高度に複雑 クローズドソース、API依存 中国語に強い、拡充中 50以上の言語、グローバルリーダー オープンソースの議論、 プライバシーの懸念 プロプライエタリの透明性、バイ アスの検査 アーキテクチャ トレーニングコスト パフォーマンス アクセシビリティ 多言語サポート 倫理的な懸念 特徴 特徴
  9. ©2025 Databricks Inc. — All rights reserved • Day1: FlashMLA

    - Hopper GPU向けMLAでコーディングカーネル • Day2: DeepEP - MoEとエキスパートパラレリズム(EP)専用の通信ライブラリ • Day3: DeepGEMM - V3/R1のトレーニングと推論を強化するFP8 GEMM ライブラリ • Day4: DualPipe、EPLB - 並列処理戦略の最適化 • Day5: 3FS - SSD、RDMAネットワークの帯域をフル活用する並列ファイル システム • Day6: DeepSeek-V3/R1推論システムの概要 9 何がすごいのか 2月末のDeepSeekオープンソースウィークでの怒涛のリリース
  10. ©2025 Databricks Inc. — All rights reserved • DatabricksはAIやデータのためのプラットフォーム、モデルはお客様のニーズに 合わせて適材適所、というのは以前からのメッセージです。

    • DeepSeekをDatabricksデータインテリジェンスプラットフォームに デプロイすることで、DeepSeekの推論機能をベースとしたエージェントシステム の構築をスムーズにし、Databricksのセキュリティ、 パフォーマンス最適化などのメリットを享受することができます。 12 Databricksの立ち位置 DatabricksはModel Agnostic(モデルを意識しない)なプラットフォームです
  11. ©2025 Databricks Inc. — All rights reserved • DeepSeek R1

    on Databricks • [翻訳] DeepSeek-R1: 強化学習を通じたLLMの論理的思考能力の動機付け • DatabricksによるDeepSeek R1(distilled Llama 8B)のサービング • cyberagent/DeepSeek-R1-Distill-Qwen-32B-JapaneseをDatabricksで動かし てみる 13 参考資料 主に翻訳です