パソコンで使える日本語AI音声入力の比較（2026年3月版）

LECTURE DECK パソコンで使える AI音声入力の比較 Aqua Voice / ChatGPT / Handy
/ Windows標準無料ツールを含む6系統・12パターン比較精度速度有料/無料クラウド/ ローカル評価軸は「AIが音声認識結果を誤解なく解釈できるか」。純粋な音声認識性能を横並び比較。 2026.3.13 Frieve-A 結論・最上位は Aqua Voice と ChatGPT ・無料のツールHandyは十分実用域・HandyとSenseVoiceの組み合わせは速度とローカル実行が強み

CONTEXT なぜ今、PC音声入力なのか AI音声入力の実用性を、PC上での運用を前提に比較。 AIへの指示出しが爆増 PC上でテキスト入力する量そのものが増え、タイピングより高速に音声で流し込みたい需要が急拡大。脳内ダンプとの相性が良い句読点や文体が崩れていても、後段のLLMで整形できる。まずは意味が落ちなければよい。静かな作業環境の価値が上昇
「小声早口でも通るか」が実運用上の差になるため、騒音耐性・認識精度が求められる。実務上の要求・小声早口でも意味が落ちない・認識待ち時間が許容範囲・AIへの入力として十分な可読性

METHODOLOGY 評価方法 AI音声入力の実用性を、PC上での運用を前提に比較。例文技術用語を多く含む長文を使用事前録音小声早口 / 通常速度の
2条件仮想マイク入力各ツールに同一音声を投入認識テキスト出力テキストをそのまま回収採点元文との意味一致度を 10点満点評価評価条件 Aqua Voiceは No Deep Context（画面コンテキスト補正なし）。 Handyは使用モデルを Whisper Large / Whisper Turbo / SenseVoice で切り替え。 Windows標準は Win + H で使えるものを使用。スコアは「文字一致」ではなく、「AIが誤解なく意図を解釈できるか」を基準に ChatGPTを用いて10点満点評価

RESULTS 総合結果 (2026.3時点) AI音声入力の実用性を、PC上での運用を前提に比較。小声早口では有料系が優位。通常速度ではWhisper系も最上位に近づく。小声早口通常速度 0 10 ChatGPT
5.4 8.8 Aqua Voice (No Deep Context) 5.8 8.9 Handy + Whisper Large 4.6 8.8 Handy + Whisper Turbo 4.4 8.8 Handy + SenseVoice 4.2 7.4 Windows標準 1.5 2.0 1. Aqua Voice が総合首位 2. ChatGPT もかなり近い 3. 無料系では Whisper Large / Turboが通常速度なら同等精度 4. SenseVoice は精度では一段下がるが、速度とのバランスは良い 5. Windows標準は差が大きい

TAKEAWAYS 実務上の示唆 (2026.3時点) AI音声入力の実用性を、PC上での運用を前提に比較。最高精度 Aqua Voice 小声早口でも最良。認識が十分高速。画面文脈補正を使う
余地もある。 ChatGPT内で完結 ChatGPT ChatGPTに直接話す用途なら非常に強い。無料で精度重視 Handy + Whisper Turbo / Large 通常速度なら実用。ただしローカルに高速なGPUが必要。無料で軽快 Handy + SenseVoice 軽くて速い。無料・ローカルで軽量に始めるなら第一候補。非推奨 Windows標準誤認識が多く実用性は低い。推奨: まずは Handy + SenseVoice → 物足りなければ Whisper Turbo / Large → 最終的に精度優先なら Aqua Voice。

REFERENCE SENTENCE 評価に使った基準テキスト AI音声入力の実用性を、PC上での運用を前提に比較。現在の最先端基盤モデルでは、Dense Transformerの単純拡張よりも、Mixture-of-Experts （MoE）による疎活性化、Multi-head Latent Attention（MLA）によるKVキャッシュ圧縮、 Multi-Token
Prediction（MTP）による学習信号高密度化が実運用上の焦点です。加えて、推論系では通常応答とdeliberative decodingを同居させるhybrid reasoning、入出力系では native multimodality、長文処理ではmillion-token級long context、実行系ではtool use・ function calling・computer useの統合が主流化しています。したがって最新トレンドは、単一巨大Denseモデルの総パラメータ競争ではなく、疎活性化・長文コンテキスト・思考予算制御・エージェント実行能力の同時最適化です。技術用語多め長文英単語混在 AI解釈を阻害しやすい条件

DETAILED COMPARISON ChatGPT 小声早口 Score 5.4 基準テキスト現在の最先端基盤モデルでは、Dense Transformerの単純拡張よりも、Mixture-of-Experts（MoE）による疎活性化、
Multi-head Latent Attention（MLA）によるKVキャッシュ圧縮、Multi-Token Prediction（MTP）による学習信号高密度化が実運用上の焦点です。加えて、推論系では通常応答とdeliberative decodingを同居させるhybrid reasoning、入出力系ではnative multimodality、長文処理ではmillion- token級long context、実行系ではtool use・function calling・computer useの統合が主流化しています。したがって最新トレンドは、単一巨大Denseモデルの総パラメータ競争ではなく、疎活性化・長文コンテキスト・思考予算制御・エージェント実行能力の同時最適化です。認識結果現在の最先端基盤モデルでは、DenseTransformerの単純拡張よりも、Mixture of Experts、MoEによる総活性化、 Multi-Head Latent Attention、MLAによる計分キャッシュ圧縮、Multi-token Prediction、MTPによる学習信号高密度化が実運用上の焦点です。加えて推論系では通常オートとディクリエイティブデコーディングを同居させるハイブリッドリーズニング、入力系ではネイティブマルチモダリティ、長文処理ではミリオントークン級ロングコンテキスト、実行系ではツール有用、ファンクションコーリング、コンピューターユースの統合が主流化しています。したがって最新トレンドは、大規模巨大言語モデルの総パラメータ競争ではなく、総活性化、長文コンテキスト、思考・計算制御、エージェント実行能力の同時最適化です。左: 元の例文 / 右: 実際の認識テキスト

DETAILED COMPARISON ChatGPT 通常速度 Score 8.8 基準テキスト現在の最先端基盤モデルでは、Dense Transformerの単純拡張よりも、Mixture-of-Experts（MoE）による疎活性化、
Multi-head Latent Attention（MLA）によるKVキャッシュ圧縮、Multi-Token Prediction（MTP）による学習信号高密度化が実運用上の焦点です。加えて、推論系では通常応答とdeliberative decodingを同居させるhybrid reasoning、入出力系ではnative multimodality、長文処理ではmillion- token級long context、実行系ではtool use・function calling・computer useの統合が主流化しています。したがって最新トレンドは、単一巨大Denseモデルの総パラメータ競争ではなく、疎活性化・長文コンテキスト・思考予算制御・エージェント実行能力の同時最適化です。認識結果現在の最先端基盤モデルでは、Dense Transformerの単純拡張よりも、Mixture of Experts、MoEによる層活性化、マルチヘッドライテントアテンション、MLAによるKVキャッシュ圧縮、マルチトークンプレディクション、MTPによる学習信号高密度化が実運用上の焦点です。加えて、推論系では、通常応答とデリベレイティブデコーディングを同居させるハイブリッドリーズニング、入出力系では、ネイティブマルチモダリティ、長文処理では、ミリオントークン級ロングコンテクスト、実行系では、ツーリユース、ファンクションコーリング、コンピューターユースの統合が主流化しています。したがって最新トレンドは、単一巨大電圧モデルの総パラメータ競争ではなく、層活性化、長文コンテクスト、思考予算制御、エージェント実行能力の同時最適化です。左: 元の例文 / 右: 実際の認識テキスト

DETAILED COMPARISON Aqua Voice (No Deep Context) 小声早口 Score 5.8
基準テキスト現在の最先端基盤モデルでは、Dense Transformerの単純拡張よりも、Mixture-of-Experts（MoE）による疎活性化、 Multi-head Latent Attention（MLA）によるKVキャッシュ圧縮、Multi-Token Prediction（MTP）による学習信号高密度化が実運用上の焦点です。加えて、推論系では通常応答とdeliberative decodingを同居させるhybrid reasoning、入出力系ではnative multimodality、長文処理ではmillion- token級long context、実行系ではtool use・function calling・computer useの統合が主流化しています。したがって最新トレンドは、単一巨大Denseモデルの総パラメータ競争ではなく、疎活性化・長文コンテキスト・思考予算制御・エージェント実行能力の同時最適化です。認識結果現在の最先端基盤モデルでは、Dense Transformerの単純拡張よりも、Mix of Experts（MOE）による総活性化、 Multi-Head Attention（MHA）、KVキャッシュ発色、 Multi-Token Prediction（MTP）による学習信号コンミスなどが実運用上の焦点です。加えて、推論系では通常オートとテレビレイティブデコーディングを同居させるハイブリッドリーズニング、入力系ではネイティブマルチモダリティ、長文処理ではミリオントークン給論、コンテキスト実行系ではツールユース、ファンクションコーリング、コンピュータユースの統合が主流化しています。したがって、最新トレンドは対策巨大デンスモデルの総パラメータ競争ではなく、総活性化、長文コンテキスト、試行予算制御、エージェント実行能力の同時最適化です。左: 元の例文 / 右: 実際の認識テキスト

DETAILED COMPARISON Aqua Voice (No Deep Context) 通常速度 Score 8.9
基準テキスト現在の最先端基盤モデルでは、Dense Transformerの単純拡張よりも、Mixture-of-Experts（MoE）による疎活性化、 Multi-head Latent Attention（MLA）によるKVキャッシュ圧縮、Multi-Token Prediction（MTP）による学習信号高密度化が実運用上の焦点です。加えて、推論系では通常応答とdeliberative decodingを同居させるhybrid reasoning、入出力系ではnative multimodality、長文処理ではmillion- token級long context、実行系ではtool use・function calling・computer useの統合が主流化しています。したがって最新トレンドは、単一巨大Denseモデルの総パラメータ競争ではなく、疎活性化・長文コンテキスト・思考予算制御・エージェント実行能力の同時最適化です。認識結果現在の最先端基盤モデルでは、Dense Transformerの単純拡張よりも、Mix of Experts、MOEによる相活性化、Multi- Head Latent Attention、MLAによるKVキャッシュ圧縮、 Multi-Token Prediction、MTPによる学習信号高密度化が実運用上の焦点です。加えて、推論系では通常応答とデリベレーティブデコーディングを同居させるハイブリッドリーズニング、入試録系ではネイティブマルチモダリティ、長文処理ではミリオントークン級ロングコンテクスト、実行系ではツールユース、ファンクションコーリング、コンピュータユースの統合が主流化しています。したがって、最新トレンドは単一巨大デンスモデルの総パラメータ競争ではなく、総活性化、長文コンテクスト、思考予算制御、エージェント実行能力の同時最適化です。左: 元の例文 / 右: 実際の認識テキスト

DETAILED COMPARISON Handy + Whisper Large 小声早口 Score 4.6 基準テキスト
現在の最先端基盤モデルでは、Dense Transformerの単純拡張よりも、Mixture-of-Experts（MoE）による疎活性化、 Multi-head Latent Attention（MLA）によるKVキャッシュ圧縮、Multi-Token Prediction（MTP）による学習信号高密度化が実運用上の焦点です。加えて、推論系では通常応答とdeliberative decodingを同居させるhybrid reasoning、入出力系ではnative multimodality、長文処理ではmillion- token級long context、実行系ではtool use・function calling・computer useの統合が主流化しています。したがって最新トレンドは、単一巨大Denseモデルの総パラメータ競争ではなく、疎活性化・長文コンテキスト・思考予算制御・エージェント実行能力の同時最適化です。認識結果現在の最先端基盤モデルでは、デンストランスフォーマーの単純拡張よりも、Mix of Experts、MOEによる総活性化、Multi-Traded Attention、MLAによるケーブルキャッシュ圧縮、Multi-Token Prediction、MTPによる学習信号高密度化が実分養成の焦点です。加えて、推論系では通常応答と、デリバリティブレコーディングを同居させるハイブリッドリーズニング、入手力系では、ネイティブマルチモダリティ、長文書類では、ミリオントークンキューロンコンテキスト、実行経由、ツールユース、ファンクションコーリング、コンピュータユースの統合が主流化しています。したがって最新トレンドは、タイス巨大デンスモデルの総パラメータ競争ではなく、総活性化、長文コンテキスト、試行予算制御、エージェント実行能力の同時最適化です。左: 元の例文 / 右: 実際の認識テキスト

DETAILED COMPARISON Handy + Whisper Large 通常速度 Score 8.8 基準テキスト
現在の最先端基盤モデルでは、Dense Transformerの単純拡張よりも、Mixture-of-Experts（MoE）による疎活性化、 Multi-head Latent Attention（MLA）によるKVキャッシュ圧縮、Multi-Token Prediction（MTP）による学習信号高密度化が実運用上の焦点です。加えて、推論系では通常応答とdeliberative decodingを同居させるhybrid reasoning、入出力系ではnative multimodality、長文処理ではmillion- token級long context、実行系ではtool use・function calling・computer useの統合が主流化しています。したがって最新トレンドは、単一巨大Denseモデルの総パラメータ競争ではなく、疎活性化・長文コンテキスト・思考予算制御・エージェント実行能力の同時最適化です。認識結果現在の最先端基盤モデルではデンストランスフォーマーの単純拡張よりもミクシチャーオブエキスパーツ MOEによる相活性化マルチヘッドレイテントアテンション MLAによる KVキャッシュ圧縮マルチトークンプレディクション MTP による学習信号高密度化が実運用上の焦点です加えて推論系では通常応答とデリベレーティブデコーディングを同居させるハイブリッドリーズニング入試録系ではネイティブマルチモダリティ長文処理ではミリオントークン級ロングコンテクスト実行系ではツールユースファンクションコーリングコンピュータユースの統合が主流化していますしたがって最新トレンドは単一巨大デンスモデルの総パラメータ競争ではなく総活性化長文コンテクスト試行予算制御エージェント実行能力の同時最適化ですご視聴ありがとうございました左: 元の例文 / 右: 実際の認識テキスト

DETAILED COMPARISON Handy + Whisper Turbo 小声早口 Score 4.4 基準テキスト
現在の最先端基盤モデルでは、Dense Transformerの単純拡張よりも、Mixture-of-Experts（MoE）による疎活性化、 Multi-head Latent Attention（MLA）によるKVキャッシュ圧縮、Multi-Token Prediction（MTP）による学習信号高密度化が実運用上の焦点です。加えて、推論系では通常応答とdeliberative decodingを同居させるhybrid reasoning、入出力系ではnative multimodality、長文処理ではmillion- token級long context、実行系ではtool use・function calling・computer useの統合が主流化しています。したがって最新トレンドは、単一巨大Denseモデルの総パラメータ競争ではなく、疎活性化・長文コンテキスト・思考予算制御・エージェント実行能力の同時最適化です。認識結果現在の最先端基盤モデルでは、電子トランスフォーマーの単純拡張よりも、ミクスチャーボエクスパーツ、MOEによる総活性化、マルチエットレイテントアテンション、MLA によるKVキャッシュ発色、マルチトークンプレディクション、MTPによる学習信号公務室とかが実分用上の焦点です。加えて推論系では通常オートと、テレビレイティブデコーディングを同居させるハイブリッドリーズニング、入手力系ではネイティブマルチモダリティ、長文処理ではミリオントークン級ロングコンテキスト、実行系ではツールユース、ファンクションコーリング、コンピュータユースの統合が主流化しています。したがって最新トレンドは、タイス巨大デンスモデルの総パラメータ競争ではなく、総活性化、長文コンテキスト、思考予算制御、エージェント実行能力の同時最適化です。左: 元の例文 / 右: 実際の認識テキスト

DETAILED COMPARISON Handy + Whisper Turbo 通常速度 Score 8.8 基準テキスト
現在の最先端基盤モデルでは、Dense Transformerの単純拡張よりも、Mixture-of-Experts（MoE）による疎活性化、 Multi-head Latent Attention（MLA）によるKVキャッシュ圧縮、Multi-Token Prediction（MTP）による学習信号高密度化が実運用上の焦点です。加えて、推論系では通常応答とdeliberative decodingを同居させるhybrid reasoning、入出力系ではnative multimodality、長文処理ではmillion- token級long context、実行系ではtool use・function calling・computer useの統合が主流化しています。したがって最新トレンドは、単一巨大Denseモデルの総パラメータ競争ではなく、疎活性化・長文コンテキスト・思考予算制御・エージェント実行能力の同時最適化です。認識結果現在の最先端基盤モデルでは、デンストランスフォーマーの単純拡張よりも、ミクスチュアオブエキスパーツ、MOE による相活性化、マルチヘッドレイテントアテンション、 MLAによるKVキャッシュ圧縮、マルチトークンプレディクション、MTPによる学習信号高密度化が実運用上の焦点です。加えて、推論系では、通常応答とデリベレイティブデコーディングを同居させるハイブリッドリーズニング、入出力系ではネイティブマルチモダリティ、長文処理ではミリオントークン級ロングコンテクスト、実行系ではツールユース、ファンクションコーリング、コンピュータユースの統合が主流化しています。したがって最新トレンドは、単一巨大デンスモデルの総パラメータ競争ではなく、総活性化、長文コンテクスト、試行予算制御、エージェント実行能力の同時最適化です。ご視聴ありがとうございました。左: 元の例文 / 右: 実際の認識テキスト

DETAILED COMPARISON Handy + SenseVoice 小声早口 Score 4.2 基準テキスト現在の最先端基盤モデルでは、Dense
Transformerの単純拡張よりも、Mixture-of-Experts（MoE）による疎活性化、 Multi-head Latent Attention（MLA）によるKVキャッシュ圧縮、Multi-Token Prediction（MTP）による学習信号高密度化が実運用上の焦点です。加えて、推論系では通常応答とdeliberative decodingを同居させるhybrid reasoning、入出力系ではnative multimodality、長文処理ではmillion- token級long context、実行系ではtool use・function calling・computer useの統合が主流化しています。したがって最新トレンドは、単一巨大Denseモデルの総パラメータ競争ではなく、疎活性化・長文コンテキスト・思考予算制御・エージェント実行能力の同時最適化です。認識結果現在の最先端基盤モデルではデフォーマの単純拡張よりもミクによる総活性化縮プによる学習信号か実分用上の焦点で加えて推は通常応答とィレコーディングを同居させるハイブリッン入手力ではィティではコテス行ァピューーの統合が主流化していますって最新トレドは巨大モデル総競争ではなく即活性化長文コンテキスト思考予算制御、実行能力の同時最適化です。左: 元の例文 / 右: 実際の認識テキスト

DETAILED COMPARISON Handy + SenseVoice 通常速度 Score 7.4 基準テキスト現在の最先端基盤モデルでは、Dense
Transformerの単純拡張よりも、Mixture-of-Experts（MoE）による疎活性化、 Multi-head Latent Attention（MLA）によるKVキャッシュ圧縮、Multi-Token Prediction（MTP）による学習信号高密度化が実運用上の焦点です。加えて、推論系では通常応答とdeliberative decodingを同居させるhybrid reasoning、入出力系ではnative multimodality、長文処理ではmillion- token級long context、実行系ではtool use・function calling・computer useの統合が主流化しています。したがって最新トレンドは、単一巨大Denseモデルの総パラメータ競争ではなく、疎活性化・長文コンテキスト・思考予算制御・エージェント実行能力の同時最適化です。認識結果現在の最先端基盤モデルではデンストランスフォーマーの単純拡張よりもミクシチアエクスパーツによる総活性化、マルチヘッドレーテントアテンション、によるケーブキャッシュ圧縮マルチトークンプレデクションによる学習信号高密度化が実運用上の焦点です加えて推論系では通常応答とデリベレーティブデコーディングを同居させるハイブリッドリーズニング、ニュース力系ではネイティブマルチモデリティ長文処理ではミリオントークン級ロングコンテクスと実行系ではツールユース、ファンクションコーリング、コンピュータユースの統合が主流化しています従たがって最新トレンドは単一巨大電スモデルの総パラメータ競争ではなく、総活性化、長文コンテクスと思考予算制御、エージェント実行能力の同時最適化です。左: 元の例文 / 右: 実際の認識テキスト

DETAILED COMPARISON Windows標準小声早口 Score 1.5 基準テキスト現在の最先端基盤モデルでは、Dense Transformerの単純拡張よりも、Mixture-of-Experts（MoE）による疎活性化、
Multi-head Latent Attention（MLA）によるKVキャッシュ圧縮、Multi-Token Prediction（MTP）による学習信号高密度化が実運用上の焦点です。加えて、推論系では通常応答とdeliberative decodingを同居させるhybrid reasoning、入出力系ではnative multimodality、長文処理ではmillion- token級long context、実行系ではtool use・function calling・computer useの統合が主流化しています。したがって最新トレンドは、単一巨大Denseモデルの総パラメータ競争ではなく、疎活性化・長文コンテキスト・思考予算制御・エージェント実行能力の同時最適化です。認識結果最先端基盤モデルでvalenceトランスフォーマーの単純拡張よりもミクスチャーexperts MVによるそう活性化マルチトレイテントテーション確かあの日トークプロジェクションmdbになる学習新興国が実運用上の焦点です加えて正論の通常テレビ見てるレコーディングを同居するはいぶりっどリスニング入力はマルチモダリティ汐文社のではミリオンドル九六のテスト実行ツールファクションクーリングコンピューターニュースの動画休暇しています伝わって写真撮るのはそうではなく走化性か長文コンテキスト飛行機さん制御エージェント実行能力の同時最適化です左: 元の例文 / 右: 実際の認識テキスト

DETAILED COMPARISON Windows標準通常速度 Score 2.0 基準テキスト現在の最先端基盤モデルでは、Dense Transformerの単純拡張よりも、Mixture-of-Experts（MoE）による疎活性化、
Multi-head Latent Attention（MLA）によるKVキャッシュ圧縮、Multi-Token Prediction（MTP）による学習信号高密度化が実運用上の焦点です。加えて、推論系では通常応答とdeliberative decodingを同居させるhybrid reasoning、入出力系ではnative multimodality、長文処理ではmillion- token級long context、実行系ではtool use・function calling・computer useの統合が主流化しています。したがって最新トレンドは、単一巨大Denseモデルの総パラメータ競争ではなく、疎活性化・長文コンテキスト・思考予算制御・エージェント実行能力の同時最適化です。認識結果現在の最先端基盤モデルですトランスフォーマーに単純隔週ミクスチャーexperts mウイングそう活性化マルチヘッドレンテン事情による木村キャッシュマルチプロジェクション学習加えて推論なん通論入力言論長文処理ではミリオントークン九のコンテキスト時刻はfunctionコーリング computer isの動画fill化していますしたがって最新トレンド助けるそっかちょっごめんなさい制御順トリートメント無視されている左: 元の例文 / 右: 実際の認識テキスト

パソコンで使える日本語AI音声入力の比較（2026年3月版）

パソコンで使える日本語AI音声入力の比較（2026年3月版）

Frieve-A

More Decks by Frieve-A

Other Decks in Technology

Featured

Transcript

LECTURE DECK パソコンで使える AI音声入力の比較 Aqua Voice / ChatGPT / Handy

METHODOLOGY 評価方法 AI音声入力の実用性を、PC上での運用を前提に比較。例文技術用語を多く含む長文を使用事前録音小声早口 / 通常速度の

RESULTS 総合結果 (2026.3時点) AI音声入力の実用性を、PC上での運用を前提に比較。小声早口では有料系が優位。通常速度ではWhisper系も最上位に近づく。小声早口通常速度 0 10 ChatGPT

TAKEAWAYS 実務上の示唆 (2026.3時点) AI音声入力の実用性を、PC上での運用を前提に比較。最高精度 Aqua Voice 小声早口でも最良。認識が十分高速。画面文脈補正を使う

DETAILED COMPARISON ChatGPT 小声早口 Score 5.4 基準テキスト現在の最先端基盤モデルでは、Dense Transformerの単純拡張よりも、Mixture-of-Experts（MoE）による疎活性化、

DETAILED COMPARISON ChatGPT 通常速度 Score 8.8 基準テキスト現在の最先端基盤モデルでは、Dense Transformerの単純拡張よりも、Mixture-of-Experts（MoE）による疎活性化、

DETAILED COMPARISON Aqua Voice (No Deep Context) 小声早口 Score 5.8

DETAILED COMPARISON Aqua Voice (No Deep Context) 通常速度 Score 8.9

DETAILED COMPARISON Handy + Whisper Large 小声早口 Score 4.6 基準テキスト

DETAILED COMPARISON Handy + Whisper Large 通常速度 Score 8.8 基準テキスト

DETAILED COMPARISON Handy + Whisper Turbo 小声早口 Score 4.4 基準テキスト

DETAILED COMPARISON Handy + Whisper Turbo 通常速度 Score 8.8 基準テキスト

DETAILED COMPARISON Handy + SenseVoice 小声早口 Score 4.2 基準テキスト現在の最先端基盤モデルでは、Dense

DETAILED COMPARISON Handy + SenseVoice 通常速度 Score 7.4 基準テキスト現在の最先端基盤モデルでは、Dense

DETAILED COMPARISON Windows標準小声早口 Score 1.5 基準テキスト現在の最先端基盤モデルでは、Dense Transformerの単純拡張よりも、Mixture-of-Experts（MoE）による疎活性化、

DETAILED COMPARISON Windows標準通常速度 Score 2.0 基準テキスト現在の最先端基盤モデルでは、Dense Transformerの単純拡張よりも、Mixture-of-Experts（MoE）による疎活性化、