Upgrade to Pro — share decks privately, control downloads, hide ads and more …

パソコンで使える日本語AI音声入力の比較(2026年3月版)

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

 パソコンで使える日本語AI音声入力の比較(2026年3月版)

無料ツールを含む6種類のAI音声入力ツール、Aqua Voice / ChatGPT / Handy + Whisper Large, Whisper Turbo, SenseVoice / Windows標準で日本語音声認識精度を比較した結果をまとめた資料です。評価用音声には小声早口な音声と、ある程度ゆっくり話した音声の2種類を用いています。

Avatar for Frieve-A

Frieve-A

March 13, 2026
Tweet

More Decks by Frieve-A

Other Decks in Technology

Transcript

  1. LECTURE DECK パソコンで使える AI音声入力の比較 Aqua Voice / ChatGPT / Handy

    / Windows標準 無料ツールを含む6系統・12パターン比較 精度 速度 有料/無料 クラウド/ ローカル 評価軸は「AIが音声認識結果を誤解なく解釈できるか」。 純粋な音声認識性能を横並び比較。 2026.3.13 Frieve-A 結論 ・最上位は Aqua Voice と ChatGPT ・無料のツールHandyは十分実用域 ・HandyとSenseVoiceの組み合わせは 速度とローカル実行が強み
  2. METHODOLOGY 評価方法 AI音声入力の実用性を、PC上での運用を前提に比較。 例文 技術用語を多く 含む長文を使用 事前録音 小声早口 / 通常速度の

    2条件 仮想マイク入力 各ツールに 同一音声を投入 認識テキスト 出力テキストを そのまま回収 採点 元文との 意味一致度を 10点満点評価 評価条件 Aqua Voiceは No Deep Context(画面コンテキスト補正なし)。 Handyは使用モデルを Whisper Large / Whisper Turbo / SenseVoice で切り替え。 Windows標準は Win + H で使えるものを使用。 スコアは「文字一致」ではなく、「AIが誤解なく意図を解釈できるか」を基準に ChatGPTを用いて10点満点評価
  3. RESULTS 総合結果 (2026.3時点) AI音声入力の実用性を、PC上での運用を前提に比較。 小声早口では有料系が優位。通常速度ではWhisper系も最上位に近づく。 小声早口 通常速度 0 10 ChatGPT

    5.4 8.8 Aqua Voice (No Deep Context) 5.8 8.9 Handy + Whisper Large 4.6 8.8 Handy + Whisper Turbo 4.4 8.8 Handy + SenseVoice 4.2 7.4 Windows標準 1.5 2.0 1. Aqua Voice が総合首位 2. ChatGPT もかなり近い 3. 無料系では Whisper Large / Turboが通常速度なら同等精度 4. SenseVoice は精度では一段下 がるが、速度とのバランスは良い 5. Windows標準は差が大きい
  4. TAKEAWAYS 実務上の示唆 (2026.3時点) AI音声入力の実用性を、PC上での運用を前提に比較。 最高精度 Aqua Voice 小声早口でも最良。 認識が十分高速。 画面文脈補正を使う

    余地もある。 ChatGPT内で完結 ChatGPT ChatGPTに直接話す 用途なら非常に強い 。 無料で精度重視 Handy + Whisper Turbo / Large 通常速度なら実用。 ただしローカルに 高速なGPUが必要。 無料で軽快 Handy + SenseVoice 軽くて速い。 無料・ローカルで 軽量に始めるなら 第一候補。 非推奨 Windows標準 誤認識が多く 実用性は低い。 推奨: まずは Handy + SenseVoice → 物足りなければ Whisper Turbo / Large → 最終的に精度優先なら Aqua Voice。
  5. REFERENCE SENTENCE 評価に使った基準テキスト AI音声入力の実用性を、PC上での運用を前提に比較。 現在の最先端基盤モデルでは、Dense Transformerの単純拡張よりも、Mixture-of-Experts (MoE)による疎活性化、Multi-head Latent Attention(MLA)によるKVキャッシュ圧縮、 Multi-Token

    Prediction(MTP)による学習信号高密度化が実運用上の焦点です。加えて、 推論系では通常応答とdeliberative decodingを同居させるhybrid reasoning、入出力系では native multimodality、長文処理ではmillion-token級long context、実行系ではtool use・ function calling・computer useの統合が主流化しています。したがって最新トレンドは、 単一巨大Denseモデルの総パラメータ競争ではなく、疎活性化・長文コンテキスト・ 思考予算制御・エージェント実行能力の同時最適化です。 技術用語多め 長文 英単語混在 AI解釈を阻害しやすい条件
  6. DETAILED COMPARISON ChatGPT 小声早口 Score 5.4 基準テキスト 現在の最先端基盤モデルでは、Dense Transformerの単純 拡張よりも、Mixture-of-Experts(MoE)による疎活性化、

    Multi-head Latent Attention(MLA)によるKVキャッシュ 圧縮、Multi-Token Prediction(MTP)による学習信号高密 度化が実運用上の焦点です。加えて、推論系では通常応答 とdeliberative decodingを同居させるhybrid reasoning、 入出力系ではnative multimodality、長文処理ではmillion- token級long context、実行系ではtool use・function calling・computer useの統合が主流化しています。したが って最新トレンドは、単一巨大Denseモデルの総パラメー タ競争ではなく、疎活性化・長文コンテキスト・思考予算 制御・エージェント実行能力の同時最適化です。 認識結果 現在の最先端基盤モデルでは、DenseTransformerの単純 拡張よりも、Mixture of Experts、MoEによる総活性化、 Multi-Head Latent Attention、MLAによる計分キャッシュ 圧縮、Multi-token Prediction、MTPによる学習信号高密 度化が実運用上の焦点です。加えて推論系では通常オート とディクリエイティブデコーディングを同居させるハイブ リッドリーズニング、入力系ではネイティブマルチモダリ ティ、長文処理ではミリオントークン級ロングコンテキス ト、実行系ではツール有用、ファンクションコーリング、 コンピューターユースの統合が主流化しています。したが って最新トレンドは、大規模巨大言語モデルの総パラメー タ競争ではなく、総活性化、長文コンテキスト、思考・計 算制御、エージェント実行能力の同時最適化です。 左: 元の例文 / 右: 実際の認識テキスト
  7. DETAILED COMPARISON ChatGPT 通常速度 Score 8.8 基準テキスト 現在の最先端基盤モデルでは、Dense Transformerの単純 拡張よりも、Mixture-of-Experts(MoE)による疎活性化、

    Multi-head Latent Attention(MLA)によるKVキャッシュ 圧縮、Multi-Token Prediction(MTP)による学習信号高密 度化が実運用上の焦点です。加えて、推論系では通常応答 とdeliberative decodingを同居させるhybrid reasoning、 入出力系ではnative multimodality、長文処理ではmillion- token級long context、実行系ではtool use・function calling・computer useの統合が主流化しています。したが って最新トレンドは、単一巨大Denseモデルの総パラメー タ競争ではなく、疎活性化・長文コンテキスト・思考予算 制御・エージェント実行能力の同時最適化です。 認識結果 現在の最先端基盤モデルでは、Dense Transformerの単純 拡張よりも、Mixture of Experts、MoEによる層活性化、マ ルチヘッドライテントアテンション、MLAによるKVキャッ シュ圧縮、マルチトークンプレディクション、MTPによる 学習信号高密度化が実運用上の焦点です。加えて、推論系 では、通常応答とデリベレイティブデコーディングを同居 させるハイブリッドリーズニング、入出力系では、ネイテ ィブマルチモダリティ、長文処理では、ミリオントークン 級ロングコンテクスト、実行系では、ツーリユース、ファ ンクションコーリング、コンピューターユースの統合が主 流化しています。したがって最新トレンドは、単一巨大電 圧モデルの総パラメータ競争ではなく、層活性化、長文コ ンテクスト、思考予算制御、エージェント実行能力の同時 最適化です。 左: 元の例文 / 右: 実際の認識テキスト
  8. DETAILED COMPARISON Aqua Voice (No Deep Context) 小声早口 Score 5.8

    基準テキスト 現在の最先端基盤モデルでは、Dense Transformerの単純 拡張よりも、Mixture-of-Experts(MoE)による疎活性化、 Multi-head Latent Attention(MLA)によるKVキャッシュ 圧縮、Multi-Token Prediction(MTP)による学習信号高密 度化が実運用上の焦点です。加えて、推論系では通常応答 とdeliberative decodingを同居させるhybrid reasoning、 入出力系ではnative multimodality、長文処理ではmillion- token級long context、実行系ではtool use・function calling・computer useの統合が主流化しています。したが って最新トレンドは、単一巨大Denseモデルの総パラメー タ競争ではなく、疎活性化・長文コンテキスト・思考予算 制御・エージェント実行能力の同時最適化です。 認識結果 現在の最先端基盤モデルでは、Dense Transformerの単純 拡張よりも、Mix of Experts(MOE)による総活性化、 Multi-Head Attention(MHA)、KVキャッシュ発色、 Multi-Token Prediction(MTP)による学習信号コンミス などが実運用上の焦点です。加えて、推論系では通常オー トとテレビレイティブデコーディングを同居させるハイブ リッドリーズニング、入力系ではネイティブマルチモダリ ティ、長文処理ではミリオントークン給論、コンテキスト 実行系ではツールユース、ファンクションコーリング、コ ンピュータユースの統合が主流化しています。したがって 、最新トレンドは対策巨大デンスモデルの総パラメータ競 争ではなく、総活性化、長文コンテキスト、試行予算制御 、エージェント実行能力の同時最適化です。 左: 元の例文 / 右: 実際の認識テキスト
  9. DETAILED COMPARISON Aqua Voice (No Deep Context) 通常速度 Score 8.9

    基準テキスト 現在の最先端基盤モデルでは、Dense Transformerの単純 拡張よりも、Mixture-of-Experts(MoE)による疎活性化、 Multi-head Latent Attention(MLA)によるKVキャッシュ 圧縮、Multi-Token Prediction(MTP)による学習信号高密 度化が実運用上の焦点です。加えて、推論系では通常応答 とdeliberative decodingを同居させるhybrid reasoning、 入出力系ではnative multimodality、長文処理ではmillion- token級long context、実行系ではtool use・function calling・computer useの統合が主流化しています。したが って最新トレンドは、単一巨大Denseモデルの総パラメー タ競争ではなく、疎活性化・長文コンテキスト・思考予算 制御・エージェント実行能力の同時最適化です。 認識結果 現在の最先端基盤モデルでは、Dense Transformerの単純 拡張よりも、Mix of Experts、MOEによる相活性化、Multi- Head Latent Attention、MLAによるKVキャッシュ圧縮、 Multi-Token Prediction、MTPによる学習信号高密度化が 実運用上の焦点です。加えて、推論系では通常応答とデリ ベレーティブデコーディングを同居させるハイブリッドリ ーズニング、入試録系ではネイティブマルチモダリティ、 長文処理ではミリオントークン級ロングコンテクスト、実 行系ではツールユース、ファンクションコーリング、コン ピュータユースの統合が主流化しています。したがって、 最新トレンドは単一巨大デンスモデルの総パラメータ競争 ではなく、総活性化、長文コンテクスト、思考予算制御、 エージェント実行能力の同時最適化です。 左: 元の例文 / 右: 実際の認識テキスト
  10. DETAILED COMPARISON Handy + Whisper Large 小声早口 Score 4.6 基準テキスト

    現在の最先端基盤モデルでは、Dense Transformerの単純 拡張よりも、Mixture-of-Experts(MoE)による疎活性化、 Multi-head Latent Attention(MLA)によるKVキャッシュ 圧縮、Multi-Token Prediction(MTP)による学習信号高密 度化が実運用上の焦点です。加えて、推論系では通常応答 とdeliberative decodingを同居させるhybrid reasoning、 入出力系ではnative multimodality、長文処理ではmillion- token級long context、実行系ではtool use・function calling・computer useの統合が主流化しています。したが って最新トレンドは、単一巨大Denseモデルの総パラメー タ競争ではなく、疎活性化・長文コンテキスト・思考予算 制御・エージェント実行能力の同時最適化です。 認識結果 現在の最先端基盤モデルでは、デンストランスフォーマー の単純拡張よりも、Mix of Experts、MOEによる総活性化 、Multi-Traded Attention、MLAによるケーブルキャッシ ュ圧縮、Multi-Token Prediction、MTPによる学習信号高 密度化が実分養成の焦点です。加えて、推論系では通常応 答と、デリバリティブレコーディングを同居させるハイブ リッドリーズニング、入手力系では、ネイティブマルチモ ダリティ、長文書類では、ミリオントークンキューロンコ ンテキスト、実行経由、ツールユース、ファンクションコ ーリング、コンピュータユースの統合が主流化しています 。したがって最新トレンドは、タイス巨大デンスモデルの 総パラメータ競争ではなく、総活性化、長文コンテキスト 、試行予算制御、エージェント実行能力の同時最適化です 。 左: 元の例文 / 右: 実際の認識テキスト
  11. DETAILED COMPARISON Handy + Whisper Large 通常速度 Score 8.8 基準テキスト

    現在の最先端基盤モデルでは、Dense Transformerの単純 拡張よりも、Mixture-of-Experts(MoE)による疎活性化、 Multi-head Latent Attention(MLA)によるKVキャッシュ 圧縮、Multi-Token Prediction(MTP)による学習信号高密 度化が実運用上の焦点です。加えて、推論系では通常応答 とdeliberative decodingを同居させるhybrid reasoning、 入出力系ではnative multimodality、長文処理ではmillion- token級long context、実行系ではtool use・function calling・computer useの統合が主流化しています。したが って最新トレンドは、単一巨大Denseモデルの総パラメー タ競争ではなく、疎活性化・長文コンテキスト・思考予算 制御・エージェント実行能力の同時最適化です。 認識結果 現在の最先端基盤モデルではデンストランスフォーマーの 単純拡張よりもミクシチャーオブエキスパーツ MOEによる 相活性化マルチヘッドレイテントアテンション MLAによる KVキャッシュ圧縮マルチトークンプレディクション MTP による学習信号高密度化が実運用上の焦点です加えて推論 系では通常応答とデリベレーティブデコーディングを同居 させるハイブリッドリーズニング入試録系ではネイティブ マルチモダリティ長文処理ではミリオントークン級ロング コンテクスト実行系ではツールユース ファンクションコー リングコンピュータユースの統合が主流化していますした がって最新トレンドは単一巨大デンスモデルの総パラメー タ競争ではなく総活性化 長文コンテクスト 試行予算制御 エージェント実行能力の同時最適化ですご視聴ありがとう ございました 左: 元の例文 / 右: 実際の認識テキスト
  12. DETAILED COMPARISON Handy + Whisper Turbo 小声早口 Score 4.4 基準テキスト

    現在の最先端基盤モデルでは、Dense Transformerの単純 拡張よりも、Mixture-of-Experts(MoE)による疎活性化、 Multi-head Latent Attention(MLA)によるKVキャッシュ 圧縮、Multi-Token Prediction(MTP)による学習信号高密 度化が実運用上の焦点です。加えて、推論系では通常応答 とdeliberative decodingを同居させるhybrid reasoning、 入出力系ではnative multimodality、長文処理ではmillion- token級long context、実行系ではtool use・function calling・computer useの統合が主流化しています。したが って最新トレンドは、単一巨大Denseモデルの総パラメー タ競争ではなく、疎活性化・長文コンテキスト・思考予算 制御・エージェント実行能力の同時最適化です。 認識結果 現在の最先端基盤モデルでは、電子トランスフォーマーの 単純拡張よりも、ミクスチャーボエクスパーツ、MOEによ る総活性化、マルチエットレイテントアテンション、MLA によるKVキャッシュ発色、マルチトークンプレディクショ ン、MTPによる学習信号公務室とかが実分用上の焦点です 。加えて推論系では通常オートと、テレビレイティブデコ ーディングを同居させるハイブリッドリーズニング、入手 力系ではネイティブマルチモダリティ、長文処理ではミリ オントークン級ロングコンテキスト、実行系ではツールユ ース、ファンクションコーリング、コンピュータユースの 統合が主流化しています。したがって最新トレンドは、タ イス巨大デンスモデルの総パラメータ競争ではなく、総活 性化、長文コンテキスト、思考予算制御、エージェント実 行能力の同時最適化です。 左: 元の例文 / 右: 実際の認識テキスト
  13. DETAILED COMPARISON Handy + Whisper Turbo 通常速度 Score 8.8 基準テキスト

    現在の最先端基盤モデルでは、Dense Transformerの単純 拡張よりも、Mixture-of-Experts(MoE)による疎活性化、 Multi-head Latent Attention(MLA)によるKVキャッシュ 圧縮、Multi-Token Prediction(MTP)による学習信号高密 度化が実運用上の焦点です。加えて、推論系では通常応答 とdeliberative decodingを同居させるhybrid reasoning、 入出力系ではnative multimodality、長文処理ではmillion- token級long context、実行系ではtool use・function calling・computer useの統合が主流化しています。したが って最新トレンドは、単一巨大Denseモデルの総パラメー タ競争ではなく、疎活性化・長文コンテキスト・思考予算 制御・エージェント実行能力の同時最適化です。 認識結果 現在の最先端基盤モデルでは、デンストランスフォーマー の単純拡張よりも、ミクスチュアオブエキスパーツ、MOE による相活性化、マルチヘッドレイテントアテンション、 MLAによるKVキャッシュ圧縮、マルチトークンプレディク ション、MTPによる学習信号高密度化が実運用上の焦点で す。加えて、推論系では、通常応答とデリベレイティブデ コーディングを同居させるハイブリッドリーズニング、入 出力系ではネイティブマルチモダリティ、長文処理ではミ リオントークン級ロングコンテクスト、実行系ではツール ユース、ファンクションコーリング、コンピュータユース の統合が主流化しています。したがって最新トレンドは、 単一巨大デンスモデルの総パラメータ競争ではなく、総活 性化、長文コンテクスト、試行予算制御、エージェント実 行能力の同時最適化です。ご視聴ありがとうございました 。 左: 元の例文 / 右: 実際の認識テキスト
  14. DETAILED COMPARISON Handy + SenseVoice 小声早口 Score 4.2 基準テキスト 現在の最先端基盤モデルでは、Dense

    Transformerの単純 拡張よりも、Mixture-of-Experts(MoE)による疎活性化、 Multi-head Latent Attention(MLA)によるKVキャッシュ 圧縮、Multi-Token Prediction(MTP)による学習信号高密 度化が実運用上の焦点です。加えて、推論系では通常応答 とdeliberative decodingを同居させるhybrid reasoning、 入出力系ではnative multimodality、長文処理ではmillion- token級long context、実行系ではtool use・function calling・computer useの統合が主流化しています。したが って最新トレンドは、単一巨大Denseモデルの総パラメー タ競争ではなく、疎活性化・長文コンテキスト・思考予算 制御・エージェント実行能力の同時最適化です。 認識結果 現在の最先端基盤モデルではデフォーマの単純拡張よりも ミクによる総活性化 縮プによる学習信号か実分用上の焦点 で 加えて推は通常応答とィレコーディングを同居させるハ イブリッン入手力ではィティではコテス行ァピューーの統 合が主流化しています って最新トレドは巨大モデル総競争 ではなく 即活性化 長文コンテキスト思考予算制御、実行 能力の同時最適化です。 左: 元の例文 / 右: 実際の認識テキスト
  15. DETAILED COMPARISON Handy + SenseVoice 通常速度 Score 7.4 基準テキスト 現在の最先端基盤モデルでは、Dense

    Transformerの単純 拡張よりも、Mixture-of-Experts(MoE)による疎活性化、 Multi-head Latent Attention(MLA)によるKVキャッシュ 圧縮、Multi-Token Prediction(MTP)による学習信号高密 度化が実運用上の焦点です。加えて、推論系では通常応答 とdeliberative decodingを同居させるhybrid reasoning、 入出力系ではnative multimodality、長文処理ではmillion- token級long context、実行系ではtool use・function calling・computer useの統合が主流化しています。したが って最新トレンドは、単一巨大Denseモデルの総パラメー タ競争ではなく、疎活性化・長文コンテキスト・思考予算 制御・エージェント実行能力の同時最適化です。 認識結果 現在の最先端基盤モデルではデンストランスフォーマーの 単純拡張よりも ミクシチアエクスパーツによる総活性化、 マルチヘッドレーテントアテンション、によるケーブキャ ッシュ圧縮 マルチトークンプレデクションによる学習信号 高密度化が実運用上の焦点です 加えて推論系では通常応答 とデリベレーティブデコーディングを同居させるハイブリ ッドリーズニング、ニュース力系ではネイティブマルチモ デリティ 長文処理ではミリオントークン級ロングコンテク スと 実行系ではツールユース、ファンクションコーリング 、コンピュータユースの統合が主流化しています 従たがっ て最新トレンドは単一巨大電スモデルの総パラメータ競争 ではなく、 総活性化、長文コンテクスと思考予算制御、エ ージェント実行能力の同時最適化です。 左: 元の例文 / 右: 実際の認識テキスト
  16. DETAILED COMPARISON Windows標準 小声早口 Score 1.5 基準テキスト 現在の最先端基盤モデルでは、Dense Transformerの単純 拡張よりも、Mixture-of-Experts(MoE)による疎活性化、

    Multi-head Latent Attention(MLA)によるKVキャッシュ 圧縮、Multi-Token Prediction(MTP)による学習信号高密 度化が実運用上の焦点です。加えて、推論系では通常応答 とdeliberative decodingを同居させるhybrid reasoning、 入出力系ではnative multimodality、長文処理ではmillion- token級long context、実行系ではtool use・function calling・computer useの統合が主流化しています。したが って最新トレンドは、単一巨大Denseモデルの総パラメー タ競争ではなく、疎活性化・長文コンテキスト・思考予算 制御・エージェント実行能力の同時最適化です。 認識結果 最先端基盤モデルでvalenceトランスフォーマーの単純拡 張よりもミクスチャーexperts MVによるそう活性化マルチ トレイテントテーション確かあの日トークプロジェクショ ンmdbになる学習新興国が実運用上の焦点です加えて正論 の通常テレビ見てるレコーディングを同居するはいぶりっ どリスニング入力はマルチモダリティ汐文社のではミリオ ンドル九六のテスト実行ツールファクションクーリングコ ンピューターニュースの動画休暇しています伝わって写真 撮るのはそうではなく走化性か長文コンテキスト飛行機さ ん制御エージェント実行能力の同時最適化です 左: 元の例文 / 右: 実際の認識テキスト
  17. DETAILED COMPARISON Windows標準 通常速度 Score 2.0 基準テキスト 現在の最先端基盤モデルでは、Dense Transformerの単純 拡張よりも、Mixture-of-Experts(MoE)による疎活性化、

    Multi-head Latent Attention(MLA)によるKVキャッシュ 圧縮、Multi-Token Prediction(MTP)による学習信号高密 度化が実運用上の焦点です。加えて、推論系では通常応答 とdeliberative decodingを同居させるhybrid reasoning、 入出力系ではnative multimodality、長文処理ではmillion- token級long context、実行系ではtool use・function calling・computer useの統合が主流化しています。したが って最新トレンドは、単一巨大Denseモデルの総パラメー タ競争ではなく、疎活性化・長文コンテキスト・思考予算 制御・エージェント実行能力の同時最適化です。 認識結果 現在の最先端基盤モデルですトランスフォーマーに単純隔 週ミクスチャーexperts mウイングそう活性化マルチヘッ ドレンテン事情による木村キャッシュマルチプロジェクシ ョン学習加えて推論なん通論入力言論長文処理ではミリオ ントークン九のコンテキスト時刻はfunctionコーリング computer isの動画fill化していますしたがって最新トレン ド助けるそっかちょっごめんなさい制御順トリートメント 無視されている 左: 元の例文 / 右: 実際の認識テキスト