Android端末で実現するオンデバイスLLM 2025

Android୺຤Ͱ࣮ݱ͢ΔΦϯσόΠεLLM 2025 2024.09.12 Masayuki Suda © LINE Digital Frontier Corporation

໨࣍ 01. ΠϯτϩμΫγϣϯ 04. ࣮༻ੑൺֱɾ·ͱΊ 02. ࣮૷ํ๏ɾϝϦοτσϝϦοτ 03. Benchmark ɾࣗݾ঺հ
ɾηογϣϯ֓ཁ ɾ༻ޠղઆ ɾ࣮༻ੑൺֱ ɾ·ͱΊ ɾOn Device LLMಋೖྫ ɾGemini Nano ɾLlama.cpp ɾMediaPipe LLM Inference API ɾձ࿩ ɾཁ໿ ɾߍਖ਼

ΠϯτϩμΫγϣϯ 01.

1.1 ࣗݾ঺հ LINE Digital Frontierגࣜձࣾ ɹɹMasayukiSuda ɹɹdaasuu

1.1 ࣗݾ঺հ LINE Digital Frontier גࣜձࣾͱ͸

ࠓ೔࿩͢͜ͱ ςΩετॲཧ

ࠓ೔࿩͢͜ͱ ࢲ͸;ͭ͏ͷAndroidΤϯδχΞͰ͢

αϯϓϧίʔυ https://github.com/MasayukiSuda/DroidKaigiLocalLLMSample

ͳͥΦϯσόΠεLLMͳͷ͔ʁ ɾϓϥΠόγʔอޢ ɾΦϑϥΠϯಈ࡞ ɾAPIίετ࡟ݮ

ͲͷΞϓϩʔνΛબͿ΂͖͔ʁ ɾ࣮૷ͷෳࡶ͞ ɾύϑΥʔϚϯε ɾϝϞϦ࢖༻ྔ ɾόοςϦʔফඅ ɾϥΠηϯεɾӡ༻໘ ɾରԠ୺຤ͷ੍໿

ຊηογϣϯͰѻ͏3ͭͷΞϓϩʔν 1. Gemini Nano with the Google AI Edge SDK
- GoogleͷΦϯσόΠεAI 2. Llama.cpp - ྔࢠԽLLMͷωΠςΟϒ࣮ߦ 3. MediaPipe LLM Inference API (.task) - LiteRTϕʔεͷߴϨϕϧLLM API

ൺֱ͢Δ6ͭͷ࣠ 1. Ԡ౴඼࣭ 2. ಋೖ޻਺ͱϏϧυखॱ 3. ϝϞϦ࢖༻ྔ 4. ਪ࿦ϨΠςϯγ 5.
όοςϦʔফඅ 6. ϥΠηϯεͱӡ༻

σϞΞϓϦͷػೳ ɾAIνϟοτ ɾϦΞϧλΠϜจষཁ໿ ɾϦΞϧλΠϜจষߍਖ਼ ɾύϑΥʔϚϯεܭଌػೳ

AIɾػցֶशͷجຊ༻ޠ **LLMʢLarge Language Modelʣ** େن໛ݴޠϞσϧ - େྔͷςΩετͰֶशͨ͠AI **ਪ࿦ʢInferenceʣ** AI͕ೖྗΛड͚ͯ౴͑Λग़͢͜ͱ= ΞϓϦͰ͍͏ʮॲཧʯ΍ʮܭࢉʯ
**τʔΫϯʢTokenʣ** AI͕ཧղ͢ΔςΩετͷ࠷খ୯Ґ ྫ: ʮ͜Μʹͪ͸ʯˠ ʮ͜Μʯʮʹͪʯʮ͸ʯ **ϨΠςϯγʢLatencyʣ** Ԡ౴࣌ؒ = ωοτϫʔΫ௨৴ͷ஗Ԇͱಉ֓͡೦

Ϟσϧ࠷దԽʹؔ͢Δ༻ޠ **ྔࢠԽʢQuantizationʣ** ϞσϧαΠζΛখ͘͢͞Δٕज़ = ը૾ѹॖʢJPEGʣͷAI൛ **ετϦʔϛϯάੜ੒** จষΛগͣͭ͠ϦΞϧλΠϜग़ྗ = ProgressBar Ͱͷਐḿදࣔͱྨࣅ
**ίϯςΩεταΠζ** Ұ౓ʹॲཧͰ͖ΔςΩετྔͷ্ݶ = BundleʹೖΕΒΕΔσʔλαΠζͷ੍ݶͱྨࣅ

ηογϣϯͰ࢖͍ͬͯΔ୺຤ Google Pixel 9ɿ • RAM 12G • ετϨʔδ 128G
• CPU Google Tensor G4

࣮૷ํ๏ɾϝϦοτσϝϦοτ 02.

Gemini Nano Gemini Nano

Gemini Nano֓ཁ • GoogleͷΦϯσόΠεੜ੒AI • aicore-experimental Google άϧʔϓʹࢀՃ͠ɺAndroid AICore ςετ
ϓ ϩάϥϜʹΦϓτΠϯ͢Δ • AICore αʔϏεܦ༝ͰΞΫηε • ରԠ୺຤ɿPixel 9γϦʔζ

Gemini Nano֓ཁ https://developer.android.com/ai/gemini-nano/experimental

Gemini Nano ࣮૷खॱᶃ: ґଘੑ

Gemini Nano ࣮૷खॱᶄ: minSDK

Gemini Nano ࣮૷खॱᶅ: ModelΛ࡞੒ Temperature: ϥϯμϜੑΛ੍ޚɺ஋͕େ͖͍΄Ͳଟ༷ੑ্͕ঢ

Gemini Nano ࣮૷खॱᶅ: ModelΛ࡞੒ TopK: ϥϯΩϯά্ҐͷτʔΫϯ͔Βߟྀ͢ΔτʔΫϯͷ਺

Gemini Nano ࣮૷खॱᶅ: ModelΛ࡞੒

Gemini Nano ࣮૷खॱᶆ: ੜ੒Λ։࢝

Gemini Nano ࣮ߦαϯϓϧ

Gemini Nano ϝϦοτɾσϝϦοτ ϝϦοτɿ • ߴ͍ਪ࿦඼࣭ʢ࠷৽ͷGeminiٕज़ʣ • ετϦʔϛϯάੜ੒αϙʔτ • OSϨϕϧͰͷ࠷దԽ
• GoogleΤίγεςϜ౷߹ σϝϦοτɿ • ରԠ୺຤͕ݶఆత • ΧελϚΠζੑ੍͕ݶత • ࣮ݧతػೳͰ·ͩҰൠར༻͕Ͱ͖ͳ͍ɻ • ճ౴͕҆ఆͤͣɺ๫૸͢Δ͜ͱ͕͋Δ

Llama.cpp Llama.cpp

Llama.cpp֓ཁ • C++ϕʔεͷLLMਪ࿦Τϯδϯ • GGUFܗࣜͷྔࢠԽϞσϧΛ࢖༻ • JNIܦ༝ͰAndroid͔Βݺͼग़͠ • ๛෋ͳϞσϧબ୒ࢶ •
ΫϩεϓϥοτϑΥʔϜରԠ

Llama.cpp ࣮૷खॱᶃ: llama.cppΛclone Llama.cppΛclone

Llama.cpp ࣮૷खॱᶄ: androidͷexampleΛ։͘ examples/androidΛAndroid StudioͰ։͘

Llama.cpp ࣮૷खॱᶅ: minSDKΛ߹ΘͤΔ

Llama.cpp ࣮૷खॱᶆ: ndkͷFIlterΛઃఆ͢Δ

Llama.cpp ࣮૷खॱᶇ:aarΛ࡞Δ

Llama.cpp ࣮૷खॱᶈ:aarΛϓϩδΣΫτʹಋೖ

Llama.cpp ࣮૷खॱᶈ:aarΛґଘੑʹՃ͑Δ

Llama.cpp ࣮૷खॱᶉ: Instance ॳظԽ

Llama.cpp ࣮૷खॱᶊ:ਪ࿦࣮ߦ

Llama.cpp Ϟσϧͷબ୒ࢶ ར༻ՄೳϞσϧྫɿ • TinyLlama 1.1B Q4: 640MBʢܰྔςετ༻ʣ • Llama
3.2 3B Q4_K_M: 2.3GBʢਪ঑ʣ • Qwen2.5 3B: 2GBʢଟݴޠରԠʣ • Phi-3.5 Mini: 2.2GBʢվྑ൛ʣ • Llama 3.2 1B Instruct Q4_K_M: 891MBʢߴ଎Ԡ౴ʣ

Llama.cpp Ϟσϧͷબ୒ࢶ ೔ຊޠઐ༻Ϟσϧྫɿ • Suzume-llama-3-8B-japanese-Q4_K_M • ELYZA Japanese LLaMA-2-7B Fast
Q4_K_M • LLaMA-3-8B Cosmopedia Japanese Q4_K_M

Llama.cpp demo ར༻Ϟσϧ • Llama 3.2 1B Instruct Q4_K_M: 891MB

Llama.cpp ϝϦοτɹσϝϦοτ ϝϦοτɿ • ๛෋ͳϞσϧબ୒ࢶ • ߴ౓ͳΧελϚΠζੑ • ΫϩεϓϥοτϑΥʔϜ •
ΞΫςΟϒͳίϛϡχςΟ • Φʔϓϯιʔε σϝϦοτɿ ɾϞσϧຖʹLicense͕ҟͳΔ ɾCPUґଘ

MediaPipe LLM Inference API MediaPipe LLM Inference API

MediaPipe Tasks Inference APIɹ֓ཁ • LiteRT (چTensorFlow Lite) ্Ͱಈ࡞ •
GemmaϑΝϛϦʔ (.taskܗࣜ) ਪ঑ • LLMಛԽͷߴϨϕϧAPI • NNAPI / GPUਪ࿦ରԠ • ϞόΠϧ୺຤޲͚࠷దԽ

MediaPipe Tasks Inference APIɹ࣮૷खॱᶃ: ґଘੑ

MediaPipe Tasks Inference APIɹ࣮૷खॱᶄ: .taskϑΝΠϧ഑ஔ • μ΢ϯϩʔυΛ४උ • Google Play
Asset Delivery • αϯϓϧͰ͸assetʹ഑ஔ

MediaPipe Tasks Inference APIɹ࣮૷खॱᶅ: ϦϑϨΫγϣϯॳظԽ

MediaPipe Tasks Inference APIɹ࣮૷खॱᶆ: ςΩετੜ੒࣮ߦ

MediaPipe Tasks Inference APIɹϞσϧͷબ୒ࢶ ϞόΠϧσόΠε޲͚Ϟσϧɿ • Falcon 1B • Gemma3
• Phi2 • Stable LM

MediaPipe Tasks Inference APIɹϞσϧͷબ୒ࢶ • Gemma3 270M: 304MBʢ࠷ܰྔʣ • Gemma3
1B: 554MBʢߴੑೳɾਪ঑ʣ • Gemma3 NANO 2B: 3GBʢ࠷ߴੑೳʣ

MediaPipe Tasks Inference APIɹཁ໿ͷdemo

MediaPipe Tasks Inference API ϝϦοτɹσϝϦοτ ϝϦοτɿ • ߴϨϕϧAPIʹΑΔ؆୯ͳ࣮૷ • LiteRTϕʔεͷߴੑೳ
• GPU/NNAPI׆༻ • GoogleΤίγεςϜ • ܧଓతαϙʔτ σϝϦοτɿ • ΧελϚΠζͷ෯͕ڱ͍

Benchmark 03.

Benchmark Google Pixel 9ɿ • RAM 12G • ετϨʔδ 128G
• CPU Google Tensor G4

Benchmark ଌఆ߲໨ɿ • ඼࣭ɾλεΫୡ੒౓ • ਪ࿦ϨΠςϯγʢॳճτʔΫϯ࣌ؒɺ૯ॲཧ࣌ؒʣ • ϝϞϦ࢖༻ྔ • όοςϦʔফඅ

Benchmark ΧςΰϦผςετέʔεɿ 1. ձ࿩ʢ؆୯ͳѫࡰɺٕज़࣭໰ɺ૑࡞ʣ 2. ཁ໿ʢ୹จɺٕज़จॻɺ௕จهࣄʣ 3. ߍਖ਼ʢޡࣈ୤ࣈɺจ๏ɺܟޠɺϏδωεจॻʣ https://github.com/MasayukiSuda/DroidKaigiLocalLLMSample/blob/ main/TEST_PROMPT.md

Benchmark ࢖༻ͨ͠Modelɿ Llama.cpp ɾLlama 3.2 1B Instruct Q4_K_Mʢձ࿩ʣ ɾSuzume-llama-3-8B-japanese-Q4_K_Mʢཁ໿ɾߍਖ਼ʣ MediaPipe
LLM Inference API ɾgemma3-1b-it-int4.task

ձ࿩demo Llama.cpp Gemini Nano MediaPipe LLM

ൺֱ߲໨ Gemini Nano Llama.cpp ʢLlama 3.2 1B Instruct Q4ʣ MediaPipe
LLM ඼࣭ɾλεΫୡ੒౓ ˕ ⚪︎ ▲ ฏۉϝϞϦ࢖༻ྔ 148MB 1,072MB 826MB ॳճτʔΫϯੜ੒࣌ؒ 298ms 798ms 560ms ૯τʔΫϯੜ੒࣌ؒ 64,963ms 91,054ms 20,357ms όοςϦʔফඅ 0.51% 1% 0.5% Benchmark ձ࿩ͷ݁Ռ

Gemini ձ࿩ɾճ౴ྫʢྑ͍ͱ͖ʣ MVVMύλʔϯͱ͸ MVVMʢModel-View-ViewModelʣύλʔϯ͸ɺΞϓϦ։ൃͷΞʔΩςΫνϟύλʔϯͷҰͭͰ͢ɻΞϓϦΛେ͖͘෼͚ͯModelɺViewɺViewModelͷ3ͭͷίϯ ϙʔωϯτʹ෼͚Δ͜ͱͰɺ։ൃͷޮ཰ԽɺϞδϡʔϧԽɺςεςΟϯά͠΍͢͞Λ࣮͠·͢ɻ **Model:** σʔλͷιʔεͱঢ়ଶΛද͢ΫϥεͰ͢ɻσʔλϕʔεɺAPIɺ·ͨ͸֎෦Ϧιʔε͔ΒσʔλΛϩʔυ͠ɺϞσϧͷঢ়ଶΛߋ৽͠·͢ɻ **View:** ΞϓϦͷϢʔβʔΠϯλʔϑΣʔεɺϢʔβʔ͔ΒͷೖྗΛॲཧ͢ΔΫϥεͰ͢ɻϞσϧͷঢ়ଶʹج͍ͮͯϢʔβʔΠϯλʔϑΣʔεΛϨϯμϦϯά͠ɺ Ϣʔβʔ͔ΒͷೖྗΛॲཧ͠·͢ɻ
**ViewModel:** ViewͱModelͷ஥հऀΫϥεͰ͢ɻViewModel͸ɺViewͷૢ࡞ʹΑͬͯModelͷঢ়ଶ͕มԽ͢ΔΠϕϯτΛड͚औΓɺ͜ΕΒͷΠϕϯτʹΑͬͯ Modelͷঢ়ଶΛߋ৽͠·͢ɻ·ͨɺViewModel͸ɺϢʔβʔͷೖྗΛجʹView͕ϨϯμϦϯά͢Δඞཁ͕͋Δ৘ใΛఏڙ͠·͢ɻ ## MVVMύλʔϯΛ࢖͏ར఺ **1. ϞδϡʔϧԽͱςεςΟϯάͷ͠΍͢͞:** MVVMύλʔϯͰ͸ɺModelɺViewɺViewModelΛͦΕͧΕಠཱͨ͠ίϯϙʔωϯτͱͯ͠ѻ͏͜ͱ͕Ͱ͖·͢ɻ͜Ε͸ɺϞδϡʔϧԽΛଅਐ͠ɺ։ൃͷޮ཰Λߴ Ί·͢ɻ·ͨɺViewͱModelΛ௚઀ΞΫηεͤͣʹViewModelΛ௨ͯ͠ૢ࡞͢Δ͜ͱͰɺςεςΟϯάͷ͠΍͢͞΋޲্͠·͢ɻViewͱModelΛ௚઀ΞΫηε͢Δ ͱɺςεςΟϯά͕ෳࡶʹͳΓɺόάͷमਖ਼΋೉͘͠ͳΓ·͢ɻViewModelΛ௨ͯ͠ૢ࡞͢Δ͜ͱͰɺViewͱModelͷ૬ޓ࡞༻Λςετ͠΍͍͢Α͏ʹ͠·͢ɻ AndroidΞϓϦ։ൃͰMVVMύλʔϯΛ࢖͏ར఺ʹ͍ͭͯৄ͘͠આ໌͍ͯͩ͘͠͞ɻ

Llama ձ࿩ɾճ౴ྫ ### MVVMύλʔϯ MVVMύλʔϯ͸ɺModel-View-ViewModelͷόʔδϣϯͰ͢ɻ - Model:σʔλΛ؅ཧ͢ΔΫϥε - View:UIΛදࣔ͢ΔΫϥε -
ViewModel:σʔλΛ؅ཧ͠ɺUIʹม׵͢ΔΫϥε ### AndroidΞϓϦͰMVVMύλʔϯΛ࢖༻͢Δར఺ 1. **σʔλ؅ཧͷ؆ૉԽ**: MVVMύλʔϯͰ͸ɺσʔλΛ؅ཧ͢ΔΫϥεͱσʔλΛ؅ཧ͢ΔΫϥεΛ෼཭͢Δ͜ͱͰɺσʔλ؅ཧ͕؆ૉԽ͞Ε·͢ɻ 2. **UIͷ੍ޚ**: ViewModelΫϥε͸ɺUIʹม׵͢Δ͜ͱͰɺUIͷ੍ޚ͕؆ૉԽ͞Ε·͢ɻ 3. **σʔλͷ҆શੑ**: ViewModelΫϥε͸ɺσʔλͷ҆શੑΛ֬อ͢Δ͜ͱͰɺσʔλͷ҆શੑ͕ߴ·Γ·͢ɻ 4. **ϩδοΫͷ෼ࢄ**: ViewModelΫϥε͸ɺϩδοΫͷ෼ࢄΛՄೳʹ͠ɺίʔυΛ؆ૉԽ͠·͢ɻ 5. **ςετͷ༰қੑ**: ViewModelΫϥε͸ɺςετ͕༰қʹͳΓɺίʔυͷςετ͕؆ૉԽ͞Ε·͢ɻ 6. **σόΠεͷޓ׵ੑ**: MVVMύλʔϯͰ͸ɺσʔλΛ؅ཧ͢ΔΫϥεͱσʔλΛ؅ཧ͢ΔΫϥεΛ෼཭͢Δ͜ͱͰɺσόΠεͷޓ׵ੑ͕ߴ·Γ·͢ɻ ### AndroidΞϓϦͰMVVMύλʔϯΛ࢖༻͢Δ৔߹ 1. **ModelΫϥεΛViewModelΫϥεʹม׵**: ModelΫϥεΛViewModelΫϥεʹม׵͢Δ͜ͱͰɺσʔλ؅ཧͷ؆ૉԽ͕ՄೳʹͳΓ·͢ɻ 2. **ViewModelΫϥεΛViewΫϥεʹม׵**: ViewModelΫϥεΛViewΫϥεʹม׵͢Δ͜ͱͰɺUIͷ੍ޚ͕؆ૉԽ͞Ε·͢ɻ 3. **ViewModelΫϥεΛRepositoryΫϥεʹม׵**: RepositoryΫϥεΛViewModelΫϥεʹม׵͢Δ͜ͱͰɺσʔλͷ҆શੑ͕ߴ·Γ·͢ɻ AndroidΞϓϦ։ൃͰMVVMύλʔϯΛ࢖͏ར఺ʹ͍ͭͯৄ͘͠આ໌͍ͯͩ͘͠͞ɻ

MediaPipe LLM Inference APIɾճ౴ྫ AndroidΞϓϦ։ൃͰMVVMύλʔϯΛ࢖͏্Ͱͷར఺Λపఈతʹઆ໌͠·͢ʂ MVVMʢModel-View-ViewModelʣύλʔϯ͸ɺAndroidΞϓϦ։ൃʹ͓͍ͯɺUIཁૉͱͷؔ܎ੑΛؒ઀తʹɺΑΓॊೈ͔ͭޮ཰తʹ؅ཧ͢ΔͨΊͷΞʔΩ ςΫνϟύλʔϯͰ͢ɻ͔͠͠ɺMVVMΛ࢖͏্Ͱͷར఺͸ଟذʹ౉Γ·͢ɻ **MVVM Patternsͷར఺ -
͜ͷ1͔ͭΒ10ͭ·Ͱઆ໌͠·͢ɿ** 1. **UI\/UX ͷ෼཭:** * MVVMύλʔϯʹΑͬͯɺUIʢϢʔβʔΠϯλʔϑΣʔεʣͰѻ͏΂͖ॲཧΛɺViewModelͰ෼཭͠·͢ɻ * ViewModel͸ɺσʔλॲཧΛ͢Δ͚ͩͰɺUIཁૉʢView)ʹ௚઀ׯব͢ΔͷͰ͸ͳ͘ɺσʔλͰσʔλΛॲཧ͠·͢ * ͜ΕʹΑΓɺUI\/UXͷมߋʹΑͬͯɺViewModelΛมߋ͢Δ͚ͩͰɺUI͕ಈతʹߋ৽͞Ε·͢ * ͜Ε͸ɺUI\/UXΛΑΓॊೈʹɺ؆୯ʹมߋͰ͖ΔϝϦοτ͕͋Γ·͢ 2. **σʔλۦಈ:** * ViewModel͸ɺσʔλͷ४උɺॲཧɺͦͯ͠σʔλͷ੔߹ੑΛ୲౰͠·͢ * ViewModelͰॲཧΛ؅ཧͰ͖Ε͹ɺUI\/UXͷมߋʹ2ճɺ2ഒɺ͞Βʹ2ഒͷॲཧΛߦ͏ඞཁ͕͋Γ·ͤΜ * ͞ΒʹɺViewModelͰσʔλΛॲཧ͢Δ͜ͱ͕Ͱ͖Ε͹ɺUI\/UXΛ2ճɺ2ഒɺ͞Βʹ2ഒɺ͞Βʹ2ഒͷॲཧΛॲཧ͢Δඞཁ͕͋Γ·ͤΜ * ͜Ε͸ɺίʔυͷมߋΛ2ճɺ2ഒɺ͞Βʹ2ഒɺ͞Βʹ2ഒɺ͞Βʹ2ഒɺ͞Βʹ2ഒɺ͞Βʹ2ഒɺ͞Βʹ2ഒɺ͞Βʹ2ഒɺ͞Βʹ2ഒɺ͞Βʹ2ഒɺ ͞Βʹ2ഒɺ͞Βʹ2ഒɺ͞Βʹ2ഒɺ͞Βʹ2ഒɺ͞Βʹ2ഒɺ͞Βʹ2ഒɺ͞Βʹ2ഒɺ͞Βʹ2ഒɺ͞Βʹ2ഒɺ͞Βʹ2ഒɺ͞Βʹ2ഒɺ͞Βʹ2ഒɺ͞Β ʹ2ഒɺ͞Βʹ2ഒɺ͞Βʹ2ഒɺ͞Βʹ2ഒɺ AndroidΞϓϦ։ൃͰMVVMύλʔϯΛ࢖͏ར఺ʹ͍ͭͯৄ͘͠આ໌͍ͯͩ͘͠͞ɻ

Benchmarkɿཁ໿prompt ҎԼͷจষΛ୹͘Θ͔Γ΍͘͢ཁ໿͍ͯͩ͘͠͞ɻ ॏཁͳ಺༰͚ͩΛ࢒͠ɺෆཁͳࡉ෦͸ল͍͍ͯͩ͘͞ɻ ग़ྗ͸೔ຊޠͰ1ʙ3จʹ͍ͯͩ͘͠͞ɻ

Benchmarkɿཁ໿demo Llama.cpp Gemini Nano MediaPipe LLM

Benchmark ൺֱ߲໨ Gemini Nano Llama.cpp Suzume-llama-3-8B-japanese MediaPipe LLM ඼࣭ɾλεΫୡ੒౓ ˕
˕ ˕ ฏۉϝϞϦ࢖༻ྔ 149MB 4,558MB 832MB ॳճτʔΫϯੜ੒࣌ؒ 376ms 18,578ms 2,445ms ૯τʔΫϯੜ੒࣌ؒ 11,489ms 113,192ms 4,246ms όοςϦʔফඅ 0.11% 1% 0.01% ཁ໿ͷ݁Ռ

Gemini Nano ཁ໿ɾճ౴ྫ Android։ൃʹ͓͚ΔMVVMύλʔϯ͸ɺModel-View-ViewModelΞʔΩςΫνϟͷུͰɺ ΞϓϦέʔγϣϯͷߏ଄Λ੔ཧ͠ɺอकੑΛ޲্ͤ͞ΔσβΠϯύλʔϯͰ͢ɻ Model͸σʔλͱϏδωεϩδοΫΛ୲౰͠ɺσʔλϕʔε΍API͔Βͷ৘ใΛ؅ཧ͠·͢ɻ View͸ϢʔβʔΠϯλʔϑΣʔεΛ୲౰͠ɺը໘දࣔ΍Ϣʔβʔͱͷ૬ޓ࡞༻Λॲཧ͠·͢ɻ ViewModel͸ViewͱModelͷ஥հ໾ͱͯ͠ػೳ͠ɺUIϩδοΫΛؚΈͳ͕Β΋ View͔Βಠཱͯ͠ςετՄೳͳܗͰ࣮૷͞Ε·͢ɻ ͜ͷύλʔϯʹΑΓɺίʔυͷ෼཭ɺςελϏϦςΟͷ޲্ɺ
ͦͯ͠ઃఆมߋ࣌ͷσʔλอ͕࣮࣋ݱ͞Ε·͢ɻ ཁ໿: Android։ൃͰMVVMύλʔϯ͸ɺσʔλͱUIΛ෼཭ͨ͠ߏ଄Ͱɺ ςετ͠΍͘͢ɺσʔλͷมߋΛεϜʔζʹߦ͑ΔઃܭͰ͢ɻ

Llama ཁ໿ɾճ౴ྫ Android։ൃʹ͓͚ΔMVVMύλʔϯ͸ɺModel-View-ViewModelΞʔΩςΫνϟͷུͰɺ ΞϓϦέʔγϣϯͷߏ଄Λ੔ཧ͠ɺอकੑΛ޲্ͤ͞ΔσβΠϯύλʔϯͰ͢ɻ Model͸σʔλͱϏδωεϩδοΫΛ୲౰͠ɺσʔλϕʔε΍API͔Βͷ৘ใΛ؅ཧ͠·͢ɻ View͸ϢʔβʔΠϯλʔϑΣʔεΛ୲౰͠ɺը໘දࣔ΍Ϣʔβʔͱͷ૬ޓ࡞༻Λॲཧ͠·͢ɻ ViewModel͸ViewͱModelͷ஥հ໾ͱͯ͠ػೳ͠ɺUIϩδοΫΛؚΈͳ͕Β΋ View͔Βಠཱͯ͠ςετՄೳͳܗͰ࣮૷͞Ε·͢ɻ ͜ͷύλʔϯʹΑΓɺίʔυͷ෼཭ɺςελϏϦςΟͷ޲্ɺ ͦͯ͠ઃఆมߋ࣌ͷσʔλอ͕࣮࣋ݱ͞Ε·͢ɻ
ग़ྗ: Android։ൃʹ͓͚ΔMVVMύλʔϯ͸ɺΞϓϦέʔγϣϯͷߏ଄Λ੔ཧ͠ɺอकੑΛ޲্ͤ͞ΔσβΠϯύ λʔϯͰ͢ɻϞσϧ͸σʔλͱϏδωεϩδοΫΛɺϏϡʔ͸ϢʔβʔΠϯλʔϑΣʔεΛɺϏϡʔϞσϧ͸ ϏϡʔͱϞσϧΛ஥հ͢Δ໾ׂΛՌͨ͠·͢ɻ

MediaPipe LLM Inference APIɹཁ໿ɾճ౴ྫ Android։ൃʹ͓͚ΔMVVMύλʔϯ͸ɺσʔλΛૢ࡞͢ΔͨΊͷϞσϧΛ؅ཧ͠ɺϢʔβʔΠϯλʔϑΣʔ εΛ؅ཧ͢Δߏ଄ΛɺModel-View-ViewModelΞʔΩςΫνϟͷུͰɺΞϓϦέʔγϣϯશମͷઃܭΛվળ ͠·͢ɻ Android։ൃʹ͓͚ΔMVVMύλʔϯ͸ɺModel-View-ViewModelΞʔΩςΫνϟͷུͰɺ ΞϓϦέʔγϣϯͷߏ଄Λ੔ཧ͠ɺอकੑΛ޲্ͤ͞ΔσβΠϯύλʔϯͰ͢ɻ Model͸σʔλͱϏδωεϩδοΫΛ୲౰͠ɺσʔλϕʔε΍API͔Βͷ৘ใΛ؅ཧ͠·͢ɻ
View͸ϢʔβʔΠϯλʔϑΣʔεΛ୲౰͠ɺը໘දࣔ΍Ϣʔβʔͱͷ૬ޓ࡞༻Λॲཧ͠·͢ɻ ViewModel͸ViewͱModelͷ஥հ໾ͱͯ͠ػೳ͠ɺUIϩδοΫΛؚΈͳ͕Β΋ View͔Βಠཱͯ͠ςετՄೳͳܗͰ࣮૷͞Ε·͢ɻ ͜ͷύλʔϯʹΑΓɺίʔυͷ෼཭ɺςελϏϦςΟͷ޲্ɺ ͦͯ͠ઃఆมߋ࣌ͷσʔλอ͕࣮࣋ݱ͞Ε·͢ɻ

Benchmarkɿߍਖ਼prompt ҎԼͷ೔ຊޠจΛਖ਼ࣗ͘͠વͳදݱʹߍਖ਼͍ͯͩ͘͠͞ɻ ग़ྗ͸ߍਖ਼ޙͷจষ͚ͩΛฦ͍ͯͩ͘͠͞ɻ

Benchmarkɿߍਖ਼demo Llama.cpp MediaPipe Tasks Gemini Nano

Benchmark ൺֱ߲໨ Gemini Nano Llama.cpp Suzume-llama-3-8B-japanese MediaPipe LLM ඼࣭ɾλεΫୡ੒౓ ⚪︎
˕ ⚪︎ ฏۉϝϞϦ࢖༻ྔ 168MB 4,261MB 846MB ॳճτʔΫϯੜ੒࣌ؒ 381ms 16,268ms 2,144ms ૯τʔΫϯੜ੒࣌ؒ 7,531ms 169,355ms 2,145ms όοςϦʔফඅ 0.05% 1% 0.01% ߍਖ਼ͷ݁Ռ

Gemini Nano ߍਖ਼ɾճ౴ྫʢྑ͍࣌ʣ ࢲΘࠓ೔ɺ͋ͨΒ͍͠ຊΛങ͍·ͨɻͱͯ΋ڵຯਂ͍಺༰ͰɺҰؾʹಡΜͰ͠·͍·ͨɻ ࢲ͸ࠓ೔ɺ৽͍͠ຊΛങ͍·ͨ͠ɻͱͯ΋ڵຯਂ͍಺༰ͰɺҰؾʹಡΜͰ͠·͍·ͨ͠ɻ

Llama ߍਖ਼ɾճ౴ྫ ग़ྗ: ࢲ͸ࠓ೔ɺ͋ͨΒ͍͠ຊΛങ͍·ͨ͠ɻͱͯ΋ڵຯਂ͍಺༰ͰɺҰؾʹಡΜͰ͠·͍·ͨ͠ɻ ղઆ: - ʮΘʯ͸ɺจ๏্ͷޡΓͰ͋Γɺলུܗͱͯ͠͸ʮ͸ʯ΍ʮΛʯͳͲ͕࢖ΘΕΔ͕ɺʮΘʯ͸ਖ਼͠ ͍จ๏Ͱ͸࢖ΘΕͳ͍ͨΊɺਖ਼֬ͳදݱʹ͸ؚΊͳ͍ɻ - ʮ·ͨʯ͸ɺจ຺ʹΑͬͯ͸ʮ·ͨʯ͕ҙຯΛม͑Δ͜ͱ͕͋Δ͕ɺ͜͜Ͱ͸ʮ·ͨʯ͕ʮ͞Βʹʯ
΍ʮ·ͨͯ͠΋ʯͳͲͷҙຯΛࣔ͢͜ͱ͸ͳ͍ͨΊɺจ຺͔Βʮ·ͨʯ͕ʮ͞Βʹʯ΍ʮ·ͨͯ͠΋ʯ ͳͲͷҙຯΛࣔ͢৔߹ʹͷΈ࢖༻͢Δͷ͕ҰൠతͰ͋Δɻ͜͜Ͱ͸ʮ·ͨʯ͕ʮ͞Βʹʯ΍ʮ·ͨ͠ ͯ΋ʯͳͲͷҙຯΛ͍ࣔͯ͠ͳ͍ͨΊɺਖ਼֬ͳදݱʹ͸ؚΊͳ͍ɻ ࢲΘࠓ೔ɺ͋ͨΒ͍͠ຊΛങ͍·ͨɻͱͯ΋ڵຯਂ͍಺༰ͰɺҰؾʹಡΜͰ͠·͍·ͨɻ

MediaPipe LLM Inference API ߍਖ਼ɾճ౴ྫ ࢲΘࠓ೔ɺ͋ͨΒ͍͠ຊΛങ͍·ͨɻͱͯ΋ڵຯਂ͍಺༰ͰɺҰؾʹಡΜͰ͠·͍·ͨɻ ࢲɺࠓ೔৽͍͠ຊΛങ͍ɺͱͯ΋ڵຯਂ͍಺༰ͰɺҰؾʹಡΈऴ͑·ͨ͠ɻ

࣮༻ੑൺֱɾ·ͱΊ 04.

࣮༻ੑൺֱ ൺֱ߲໨ Gemini Nano Llama.cpp MediaPipe LLM Ԡ౴඼࣭ ύʔϑΣΫτ ͨͩͨ͠·ʹ๫૸
Modelʹࠨӈ͞ΕΔ͕ ֓Ͷ ⚪︎ ཁ໿ɺߍਖ਼͸˕ ձ࿩͸ݶఆత latency ˕ ⚪︎ ⚪︎ ରԠ୺຤ ݶఆత ·࣮ͩݧతػೳ Android7 Ҏ߱ Android7 Ҏ߱ license Googleར༻ن໿ʹ४ڌ MIT License ※Modelͱ͸ผLicense Apache 2.0 Gemma license

΋͠ɺαʔϏεʹೖΕΔͳΒ

Llama.cpp, MediaPipe LLM Inference API Λ࢖༻ͨ͠ػೳߏ૝ྫ • ϦΞϧλΠϜʹϢʔβʔʹ൓ө͢Δʹ͸·ͩlatencyͷෆ͕҆͋Δ • Ξ΢τϓοτ΋ͦͷ··ϢʔβʔʹݟͤΔ͔΋൑அ͕೉͍͠
• ϝϞϦ࢖༻ྔɺόοςϦʔফඅ͸໰୊ͳ͠

• ౤ߘ͸ଈ࣌ެ։ʢUXҡ࣋ʣʗ؂ࢹͰ௥ਵ • ϩʔΧϧਪ࿦ͰϓϥΠόγʔอޢˍ௿஗Ԇ • ౤ߘҧ൓ͷ࠷ऴ൑அ͸ਓ ౤ߘ؂ࢹΛʮଈ࣌ɾ୺຤಺ʯͰ Llama.cpp, MediaPipe LLM
Inference API Λ࢖༻ͨ͠ػೳߏ૝ྫ

౤ߘ؂ࢹΛʮଈ࣌ɾ୺຤಺ʯͰ

·ͱΊ • ςΩετॲཧͷΦϯσόΠε LLM͸༻్ΛߜΕ͹࣮༻Ͱ͖Δஈ֊ • ཁ݅ʹԠͨ͡ద੾ͳબ୒͕੒ޭͷ伴 • ٕज़ਐา͕଎͍෼໺Ͱͷܧଓతͳ৘ใऩू͕ඞཁ

ΞϑλʔΠϕϯτ ɾLlama.cppͷϞσϧపఈൺֱ ɾMediaPipe LLM Inference API ͷϞσϧൺֱ ɾGPUͷରԠ 10݄3೔ 19:00ʙɹ౦ژϛουλ΢ϯ࿡ຊ໦
11F

Special Thanks Gemini Nano Experimental https://developer.android.com/ai/gemini-nano/experimental?hl=ja Llama.cpp https://github.com/ggml-org/llama.cpp Gemma3 https://ai.google.dev/gemma/docs/core?hl=ja
MediaPipe LLM Inference API https://ai.google.dev/edge/mediapipe/solutions/genai/llm_inference/android?hl=ja

End Of doc.

Android端末で実現するオンデバイスLLM 2025

Android端末で実現するオンデバイスLLM 2025

More Decks by LINE Digital Frontier - TECH

Other Decks in Technology

Featured

Transcript