Android端末で実現するオンデバイスLLM 2025　続き

Android୺຤Ͱ࣮ݱ͢ΔΦϯσόΠεLLM 2025 ଓ͖ 2025.10.03 Masayuki Suda © LINE Digital Frontier
Corporation

໨࣍ 01. ΠϯτϩμΫγϣϯ 04. GPUͷରԠͷ࣮৘ 02. Llama.cppͷϞσϧపఈൺֱ 03. MediaPipe ͷϞσϧൺֱ
ɾࣗݾ঺հ ɾηογϣϯ͓͞Β͍ ɾ࿦จ ɾ·ͱΊ ɾϞσϧൺֱ ɾσϞ ɾϞσϧൺֱ ɾσϞ

ΠϯτϩμΫγϣϯ 01.

1.1 ࣗݾ঺հ LINE Digital Frontierגࣜձࣾ ɹɹMasayukiSuda ɹɹdaasuu

αϯϓϧίʔυ https://github.com/MasayukiSuda/DroidKaigiLocalLLMSample

͓͞Β͍ DroidKaigi 2025Ͱͷൃදͷ͓͞Β͍

ձ࿩demo Llama.cpp Gemini Nano MediaPipe LLM

ຊ೔ͷςʔϚ ɾLlama.cppͷϞσϧൺֱ ɾMediaPipe LLM InferenceͷϞσϧൺֱ ɾΦϯσόΠε LLMͰͷGPU

ηογϣϯͰ࢖͍ͬͯΔ୺຤ Google Pixel 9ɿ • RAM 12G • ετϨʔδ 128G
• CPU Google Tensor G4

Llama.cppͷϞσϧൺֱ 02.

Llama.cpp֓ཁ • C++ϕʔεͷLLMਪ࿦Τϯδϯ • GGUFܗࣜͷྔࢠԽϞσϧΛ࢖༻ • JNIܦ༝ͰAndroid͔Βݺͼग़͠ • ๛෋ͳϞσϧબ୒ࢶ •
ΫϩεϓϥοτϑΥʔϜରԠ

Llama.cpp ൺֱ͢ΔϞσϧ ࠓճൺֱ͢ΔϞσϧ • Qwen2.5 3B: 2GB • Llama-3-ELYZA-JP-8B: 4.9GB
• Phi-3.5 Mini: 2.2GB ɾSuzume-llama-3-8B: 4.9GB • Llama 3.2 1B Instruct Q4_K_M: 891MB • Llama 3.2 3B Q4_K_M: 2.3GB

Llama.cpp Ϟσϧͷൺֱ Qwen2.5 3B Llama-3-ELYZA- JP-8B Phi-3.5 Mini Suzume- llama-3-8B
Llama 3.2 1B Instruct Llama 3.2 3B ඼࣭ɾλεΫୡ੒౓ × ⚪︎ ▲ ⚪︎ ▲ ▲ ฏۉϝϞϦ࢖༻ྔ 2138MB 4446MB 3266MB 4558MB 1058MB 2406MB 1ඵ͋ͨΓͷτʔΫϯ ੜ੒਺ 4.8 1.1 3.1 1.1 11.1 2.9 όοςϦʔফඅ 0.6% 1.20% 0.7% 3% 0.01% 0.45% License Qwen Research Meta Llama 3 Community MIT Meta Llama 3 Community Llama 3.2 Community Llama 3.2 Community

License ൺֱද ϥΠηϯε໊ ঎༻ར ༻ େن໛ར༻࣌ͷ੍ݶ ओͳٛ຿ɾ੍ݶ Meta Llama 3
Community Մೳ MAU 7ԯਓ௒ͷ৔߹ɺผ్MetaࣾʹϥΠ ηϯεΛਃ੥͢Δඞཁ͕͋Δɻ ʮBuilt with Meta Llama 3ʯͷදࣔٛ຿ɻଞLLM ͷվળ΁ͷར༻ېࢭɻ Llama 3.2 Community Մೳ MAU 7ԯਓ௒ͷ৔߹ɺผ్MetaࣾʹϥΠ ηϯεΛਃ੥͢Δඞཁ͕͋Δɻ ʮBuilt with Llamaʯͷදࣔٛ຿ɻଞLLMͷվળ ΁ͷར༻ېࢭɻ Qwen Research ෆՄ ঎༻ར༻͸ɺผ్ϥΠηϯεܖ໿͕ඞ ཁɻ ݚڀ໨త΍ඇ঎༻ར༻ͷΈڐՄɻมߋՕॴΛ໌ ࣔ͠ɺஶ࡞ݖදࣔΛอ࣋͢Δٛ຿ɻ MIT License Մೳ ͳ͠ ͳ͠

Llamaɹձ࿩demo Phi-3.5 Mini Llama 3.2 1B Llama 3.2 3B

Media Pipe LLM Inference ͷϞσϧൺֱ 03.

MediaPipe Tasks Inference APIɹ֓ཁ • LiteRT (چTensorFlow Lite) ্Ͱಈ࡞ •
GemmaϑΝϛϦʔ (.taskܗࣜ) ਪ঑ • LLMಛԽͷߴϨϕϧAPI • NNAPI / GPUਪ࿦ରԠ • ϞόΠϧ୺຤޲͚࠷దԽ

MediaPipe Tasks Inference APIɹϞσϧ • Gemma3 270M: 304MBʢ࠷ܰྔʣ • Gemma3
1B: 554MBʢߴੑೳɾਪ঑ʣ • Gemma3 NANO 2B: 3GBʢ࠷ߴੑೳʣ

MediaPipe Tasks Inference APIɹϞσϧ Gemma3 270M Gemma3 1B Gemma3 NANO
2B ඼࣭ɾλεΫୡ੒౓ ▲ ˕ ˕ ฏۉϝϞϦ࢖༻ྔ 456M 832M 875M 1ඵ͋ͨΓͷτʔΫϯੜ੒਺ 17.2 14.1 7.3 όοςϦʔফඅ 0.0001% 0.001% 0.07%

MediaPipe Tasks Inference APIɹϞσϧ 270M 1B NANO 2B

GPUͷରԠ 03.

GPUͷରԠ LLM = GPUͨ͘͞Μ࢖͏

GPUͷରԠ ϞόΠϧσόΠεͰ͸GPUΛ࢖ͬͯLLM Λ࣮ߦͯ͠΋ඞͣ͠΋༗རͰ͸ͳ͍

GPU͕ඞͣ͠΋༗རͰͳ͍ͱ͍͏ใࠂ • Challenging GPU Dominance (2025) • iPhone 15 ProͰCPU͕GPUΑΓߴ଎
• ཧ༝: సૹΦʔόʔϔουɺCPU࠷దԽͷޮՌ • Large LLM Benchmarking on Mobile (2024) • SoCൺֱͰGPU͕༏ҐͰͳ͍έʔεଟ਺

GPU୯ಠͷݶքͱϋΠϒϦουઓུ • HeteroLLM (2025) • CPU+GPU+NPUڠௐ࣮ߦΛఏҊ • Parallel CPU-GPU Execution
(2025) • GPU੍໿ԼͰCPUΛซ༻ͨ͠ํ͕ޮ཰త • Transformer-Lite (2024) • GPU࠷దԽٕज़͕ඞཁͳ͜ͱΛڧௐ

࿦จ͔Βݟ͑Δࠓޙͷํ޲ੑ • ڞ௨ͷ࿦఺ • খن໛ϞσϧͰ͸CPU͕༗ར • సૹίετ͕GPUར఺Λଧͪফ͢ • ೤ɾిྗ੍໿ͰGPUੑೳ͕࣋ଓ͠ʹ͍͘ •
ల๬: • ϋΠϒϦου࣮ߦͷඪ४Խ • ྔࢠԽɾ࠷దԽʹΑΔGPU׆༻ͷޮ཰Խ

࣮ݧ MediaPipe LLM InferenceͰࢼ͢

Gemma3 1B GPU ON Gemma3 1B   GPU OFF Gemma3
1BͰGPUൺֱ

Gemma3 NANO GPU ON Gemma3 NANO   GPU OFF Gemma3
NANOͰGPUൺֱ

Gemma3 NANOͰGPUൺֱ 1B 1B GPU NANO 2B NANO 2B GPU
඼࣭ɾλεΫୡ੒౓ ˕ ⚪︎ ˕ ⚪︎ ฏۉϝϞϦ࢖༻ྔ 832M 1587MB 875MB 4615M 1ඵ͋ͨΓͷτʔΫϯ ੜ੒਺ 14.1 16.1 7.3 8.4 όοςϦʔফඅ 0.001% 1% 0.07% 2%

·ͱΊ • ΦϯσόΠεͷLLMͷςΩετॲཧ͸MediaPipe LLM Inferenceͷ Gemma3 1B͕࠷΋όϥϯεྑ͓ͯ͘͢͢Ί • GPU͸·ͩ·ͩෆ҆తͳͷͰɺཁ஫ҙɻCPU͚ͩͷํ͕҆ఆͯ͠ ͍ͯঘ׌ͭૣ͍৔߹͕ଟ͍͍ɻ

Special Thanks Gemini Nano Experimental https://developer.android.com/ai/gemini-nano/experimental?hl=ja Llama.cpp https://github.com/ggml-org/llama.cpp Gemma3 https://ai.google.dev/gemma/docs/core?hl=ja
MediaPipe LLM Inference API https://ai.google.dev/edge/mediapipe/solutions/genai/llm_inference/android?hl=ja

End Of doc.

Android端末で実現するオンデバイスLLM 2025　続き

Android端末で実現するオンデバイスLLM 2025　続き

Masayuki Suda

More Decks by Masayuki Suda

Featured

Transcript

Android୺຤Ͱ࣮ݱ͢ΔΦϯσόΠεLLM 2025 ଓ͖ 2025.10.03 Masayuki Suda © LINE Digital Frontier

໨࣍ 01. ΠϯτϩμΫγϣϯ 04. GPUͷରԠͷ࣮৘ 02. Llama.cppͷϞσϧపఈൺֱ 03. MediaPipe ͷϞσϧൺֱ

ΠϯτϩμΫγϣϯ 01.

1.1 ࣗݾ঺հ LINE Digital Frontierגࣜձࣾ ɹɹMasayukiSuda ɹɹdaasuu

αϯϓϧίʔυ https://github.com/MasayukiSuda/DroidKaigiLocalLLMSample

͓͞Β͍ DroidKaigi 2025Ͱͷൃදͷ͓͞Β͍

ձ࿩demo Llama.cpp Gemini Nano MediaPipe LLM

ຊ೔ͷςʔϚ ɾLlama.cppͷϞσϧൺֱ ɾMediaPipe LLM InferenceͷϞσϧൺֱ ɾΦϯσόΠε LLMͰͷGPU

ηογϣϯͰ࢖͍ͬͯΔ୺຤ Google Pixel 9ɿ • RAM 12G • ετϨʔδ 128G

Llama.cppͷϞσϧൺֱ 02.

Llama.cpp֓ཁ • C++ϕʔεͷLLMਪ࿦Τϯδϯ • GGUFܗࣜͷྔࢠԽϞσϧΛ࢖༻ • JNIܦ༝ͰAndroid͔Βݺͼग़͠ • ๛෋ͳϞσϧબ୒ࢶ •

Llama.cpp ൺֱ͢ΔϞσϧ ࠓճൺֱ͢ΔϞσϧ • Qwen2.5 3B: 2GB • Llama-3-ELYZA-JP-8B: 4.9GB

Llama.cpp Ϟσϧͷൺֱ Qwen2.5 3B Llama-3-ELYZA- JP-8B Phi-3.5 Mini Suzume- llama-3-8B

Llama.cpp Ϟσϧͷൺֱ Qwen2.5 3B Llama-3-ELYZA- JP-8B Phi-3.5 Mini Suzume- llama-3-8B

License ൺֱද ϥΠηϯε໊ ঎༻ར ༻ େن໛ར༻࣌ͷ੍ݶ ओͳٛ຿ɾ੍ݶ Meta Llama 3

Llamaɹձ࿩demo Phi-3.5 Mini Llama 3.2 1B Llama 3.2 3B

Media Pipe LLM Inference ͷϞσϧൺֱ 03.

MediaPipe Tasks Inference APIɹ֓ཁ • LiteRT (چTensorFlow Lite) ্Ͱಈ࡞ •

MediaPipe Tasks Inference APIɹϞσϧ • Gemma3 270M: 304MBʢ࠷ܰྔʣ • Gemma3

MediaPipe Tasks Inference APIɹϞσϧ Gemma3 270M Gemma3 1B Gemma3 NANO

MediaPipe Tasks Inference APIɹϞσϧ 270M 1B NANO 2B

GPUͷରԠ 03.

GPUͷରԠ LLM = GPUͨ͘͞Μ࢖͏

GPUͷରԠ ϞόΠϧσόΠεͰ͸GPUΛ࢖ͬͯLLM Λ࣮ߦͯ͠΋ඞͣ͠΋༗རͰ͸ͳ͍

GPU͕ඞͣ͠΋༗རͰͳ͍ͱ͍͏ใࠂ • Challenging GPU Dominance (2025) • iPhone 15 ProͰCPU͕GPUΑΓߴ଎

GPU୯ಠͷݶքͱϋΠϒϦουઓུ • HeteroLLM (2025) • CPU+GPU+NPUڠௐ࣮ߦΛఏҊ • Parallel CPU-GPU Execution

࿦จ͔Βݟ͑Δࠓޙͷํ޲ੑ • ڞ௨ͷ࿦఺ • খن໛ϞσϧͰ͸CPU͕༗ར • సૹίετ͕GPUར఺Λଧͪফ͢ • ೤ɾిྗ੍໿ͰGPUੑೳ͕࣋ଓ͠ʹ͍͘ •

࣮ݧ MediaPipe LLM InferenceͰࢼ͢

Gemma3 1B GPU ON Gemma3 1B   GPU OFF Gemma3

Gemma3 NANO GPU ON Gemma3 NANO   GPU OFF Gemma3

Gemma3 NANOͰGPUൺֱ 1B 1B GPU NANO 2B NANO 2B GPU

·ͱΊ • ΦϯσόΠεͷLLMͷςΩετॲཧ͸MediaPipe LLM Inferenceͷ Gemma3 1B͕࠷΋όϥϯεྑ͓ͯ͘͢͢Ί • GPU͸·ͩ·ͩෆ҆తͳͷͰɺཁ஫ҙɻCPU͚ͩͷํ͕҆ఆͯ͠ ͍ͯঘ׌ͭૣ͍৔߹͕ଟ͍͍ɻ

Special Thanks Gemini Nano Experimental https://developer.android.com/ai/gemini-nano/experimental?hl=ja Llama.cpp https://github.com/ggml-org/llama.cpp Gemma3 https://ai.google.dev/gemma/docs/core?hl=ja

End Of doc.

Android端末で実現するオンデバイスLLM 2025 続き

Android端末で実現するオンデバイスLLM 2025 続き

More Decks by Masayuki Suda

Featured

Transcript

Android端末で実現するオンデバイスLLM 2025　続き

Android端末で実現するオンデバイスLLM 2025　続き