Explorando Gemini Nano: Integración de IA en Apps Android

Explorando Gemini Nano Integración de IA en Apps Android Antonio
Leiva (Formador, GDE Android, Partner JetBrains)

📅 Agenda

📅 Agenda 1. ✨ Introducción a Gemini

📅 Agenda 1. ✨ Introducción a Gemini 2.
🧠 Fundamentos de los LLMs

🧠 Fundamentos de los LLMs 3. ⚖️ Ventajas y desventajas de la IA en dispositivo

🧠 Fundamentos de los LLMs 3. ⚖️ Ventajas y desventajas de la IA en dispositivo 4. 🛠️ Casos de uso y aplicaciones prácticas

🧠 Fundamentos de los LLMs 3. ⚖️ Ventajas y desventajas de la IA en dispositivo 4. 🛠️ Casos de uso y aplicaciones prácticas 5. 💻 Arquitectura e integración

🧠 Fundamentos de los LLMs 3. ⚖️ Ventajas y desventajas de la IA en dispositivo 4. 🛠️ Casos de uso y aplicaciones prácticas 5. 💻 Arquitectura e integración 6. 👨‍💻 Demo práctica

🦄🌈 El sueño de la IA en el dispositivo

✨ 1. Introducción a Gemini

✨ 1. Introducción a Gemini IA generativa de Google

Suite de modelos con diferentes capacidades

Suite de modelos con diferentes capacidades Competidor directo de OpenAI (GPT) y Anthropic (Claude)

✨ 1. Introducción a Gemini

Gemini Nano

Gemini Nano Primera versión de IA generativa de Google
diseñada para entornos locales

diseñada para entornos locales Integrado en Chrome y dispositivos Android

diseñada para entornos locales Integrado en Chrome y dispositivos Android Disponible inicialmente en dispositivos Pixel y gama alta

🧠 2. Fundamentos de los LLMs

🧠 2. Fundamentos de los LLMs ¿Qué es un Modelo
de Lenguaje de Gran Escala (LLM)?:

de Lenguaje de Gran Escala (LLM)?: Red neuronal entrenada con enormes cantidades de texto

de Lenguaje de Gran Escala (LLM)?: Red neuronal entrenada con enormes cantidades de texto Predice secuencias de palabras basándose en patrones aprendidos

de Lenguaje de Gran Escala (LLM)?: Red neuronal entrenada con enormes cantidades de texto Predice secuencias de palabras basándose en patrones aprendidos Genera texto coherente y contextualmente relevante

🧠 Los Pesos

🧠 Los Parámetros

🧠 Los Parámetros Son principalmente los pesos

🧠 Los Parámetros Son principalmente los pesos 32B
-> 32.000 millones de parámetros

-> 32.000 millones de parámetros Ej: Deepseek R1 -> 671B

-> 32.000 millones de parámetros Ej: Deepseek R1 -> 671B En general, a mayor número de parámetros, mayor precisión en entrenamiento

🧠 Cuantización

🧠 Cuantización Precisión numérica de los parámetros

🧠 Cuantización Precisión numérica de los parámetros Permite
reducir significativamente el tamaño del modelo

reducir significativamente el tamaño del modelo Niveles comunes: 32 bits, 16 bits, 8 bits, 4 bits

reducir significativamente el tamaño del modelo Niveles comunes: 32 bits, 16 bits, 8 bits, 4 bits A menor cuantización: menor tamaño, menor precisión

🧠 Cuantización Impacto de la cuantización: Modelo de 7B a
32 bits: ~28GB Modelo de 7B a 16 bits: ~14GB Modelo de 7B a 8 bits: ~7GB Modelo de 7B a 4 bits: ~3.5GB Un smartphone de gama alta tiene ~12-16GB de RAM total

IA en Dispositivo Reto: Reducir parámetros y cuantización, manteniendo capacidades

🧠 Gemini Nano: Especificaciones Nano 1: 1.8B parámetros (texto) Nano
2: 3.25B parámetros (multimodal) Cuantización probablemente de 4-8 bits Diseñado específicamente para ejecutarse en RAM de dispositivos

🧠 2. Fundamentos de los LLMs Comparativa de tamaño: GPT-4:
~1800B (estimación) Deepseek R1: 671B Llama 3.2: 1B, 3B, 11B, 90B Gemini Nano: 1.8-3.25B Gemini Nano es ~50-100 veces más pequeño que modelos más potentes

⚖️ 3. Ventajas de la IA en dispositivo

⚖️ 3. Ventajas de la IA en dispositivo Reducción
de latencia

de latencia Reducción de costes

de latencia Reducción de costes Privacidad mejorada

de latencia Reducción de costes Privacidad mejorada Funcionamiento offline

⚖️ 3. Desventajas de la IA en dispositivo Consumo de
recursos

recursos RAM: Requiere mantener el modelo en memoria

recursos RAM: Requiere mantener el modelo en memoria Almacenamiento: Descarga del modelo en el dispositivo

recursos RAM: Requiere mantener el modelo en memoria Almacenamiento: Descarga del modelo en el dispositivo Batería: Mayor consumo durante la generación

recursos RAM: Requiere mantener el modelo en memoria Almacenamiento: Descarga del modelo en el dispositivo Batería: Mayor consumo durante la generación CPU/GPU: Utilización intensiva durante el procesamiento

recursos

recursos Limitaciones de disponibilidad: dipositivos nuevos de gama alta

recursos Limitaciones de disponibilidad: dipositivos nuevos de gama alta Menor precisión de las respuestas

🛠️ 4. Tareas optimizadas para Gemini Nano

🛠️ 4. Tareas optimizadas para Gemini Nano Nano 1

Reformulación de texto: Modificar el tono y estilo del texto (ej. casual a formal).

Reformulación de texto: Modificar el tono y estilo del texto (ej. casual a formal). Respuesta inteligente: Generar respuestas contextualmente relevantes en una conversación.

Reformulación de texto: Modificar el tono y estilo del texto (ej. casual a formal). Respuesta inteligente: Generar respuestas contextualmente relevantes en una conversación. Corrección: Identificar y corregir errores ortográficos y gramaticales.

Reformulación de texto: Modificar el tono y estilo del texto (ej. casual a formal). Respuesta inteligente: Generar respuestas contextualmente relevantes en una conversación. Corrección: Identificar y corregir errores ortográficos y gramaticales. Resumen: Condensar documentos extensos en resúmenes concisos (párrafos o viñetas).

🛠️ 4. Tareas optimizadas para Gemini Nano Nano 1 Reformulación
de texto Respuesta inteligente Corrección Resumen Nano 2

de texto Respuesta inteligente Corrección Resumen Nano 2 Comprensión de imágenes: Interpretar y describir contenido visual.

de texto Respuesta inteligente Corrección Resumen Nano 2 Comprensión de imágenes: Interpretar y describir contenido visual. Voz a texto: Transcripción de audio a texto.

🛠️ 4. Aplicaciones actuales Pixel Screenshots Notas de llamadas Grabadora
(Google Recorder) Gboard TalkBack

🛠️ Pixel Screenshots

🛠️ Notas de llamadas

🛠️ Grabadora

🛠️ Gboard

🛠️ TalkBack

💻 5. Arquitectura de Gemini Nano

💻 5. Arquitectura de Gemini Nano AI Core:

💻 5. Arquitectura de Gemini Nano AI Core: Capa
de abstracción para acceder a modelos de IA

de abstracción para acceder a modelos de IA Gestiona la carga y ejecución de modelos

de abstracción para acceder a modelos de IA Gestiona la carga y ejecución de modelos Optimiza el rendimiento según el hardware

de abstracción para acceder a modelos de IA Gestiona la carga y ejecución de modelos Optimiza el rendimiento según el hardware Mantiene el modelo centralizado para todas las apps

💻 5. Arquitectura de Gemini Nano Beneficios de la arquitectura
centralizada:

centralizada: El modelo se descarga una única vez

centralizada: El modelo se descarga una única vez Todas las aplicaciones comparten la misma instancia

centralizada: El modelo se descarga una única vez Todas las aplicaciones comparten la misma instancia Menor huella de almacenamiento y memoria

centralizada: El modelo se descarga una única vez Todas las aplicaciones comparten la misma instancia Menor huella de almacenamiento y memoria Actualizaciones centralizadas del modelo

💻 5. Arquitectura de Gemini Nano LoRAs (Low-Rank Adaptations):

Técnica para personalizar modelos pre-entrenados

Técnica para personalizar modelos pre-entrenados Permite adaptar el modelo a casos de uso específicos

Técnica para personalizar modelos pre-entrenados Permite adaptar el modelo a casos de uso específicos Requiere muchos menos parámetros que reentrenar completamente

Técnica para personalizar modelos pre-entrenados Permite adaptar el modelo a casos de uso específicos Requiere muchos menos parámetros que reentrenar completamente Optimización para tareas concretas sin perder capacidades generales

💻 5. Privacidad y seguridad

💻 5. Privacidad y seguridad Principios de funcionamiento:

💻 5. Privacidad y seguridad Principios de funcionamiento: Ejecución
100% local de las peticiones

100% local de las peticiones Eliminación de llamadas al servidor para inferencia

100% local de las peticiones Eliminación de llamadas al servidor para inferencia Datos sensibles nunca salen del dispositivo

100% local de las peticiones Eliminación de llamadas al servidor para inferencia Datos sensibles nunca salen del dispositivo Aislamiento de solicitudes entre aplicaciones

💻 5. Privacidad y seguridad Mecanismos de protección:

💻 5. Privacidad y seguridad Mecanismos de protección: AI
Core aísla cada solicitud individualmente

Core aísla cada solicitud individualmente No se almacenan registros de datos de entrada

Core aísla cada solicitud individualmente No se almacenan registros de datos de entrada Resultados no persisten después del procesamiento

Core aísla cada solicitud individualmente No se almacenan registros de datos de entrada Resultados no persisten después del procesamiento Separación entre apps que utilizan el modelo

💻 5. Disponibilidad actual Dispositivos compatibles con Nano 1 (1.8B):
Pixel 8 (incl. 8a y 8 Pro) Samsung S24 series Xiaomi 14T y MIX Flip Motorola Edge y Razr 50 Ultra Otros dispositivos de gama alta lanzados posteriormente

💻 5. Disponibilidad actual Dispositivos compatibles con Nano 2 (3.25B):
Pixel 9 series Requisitos generales: Android 12 o superior (API 31+) Procesador de gama alta/media-alta Mínimo 8GB de RAM recomendados

💻 5. Integración en apps: Primeros pasos Importante: Actualmente el
acceso es experimental y no se pueden publicar Apps con esta dependencia. // Configuración en build.gradle dependencies { implementation("com.google.ai.edge.aicore:aicore:0.0.1-exp01") } android { minSdk = 31 }

💻 5. Integración en apps: Configuración val generationConfig = generationConfig
{ context = ApplicationProvider.getApplicationContext() temperature = 0.2f topK = 16 maxOutputTokens = 256 } val generativeModel = GenerativeModel( generationConfig = generationConfig )

💻 5. Integración en apps: Descarga del modelo val downloadConfig
= DownloadConfig(downloadCallback) downloadConfig = downloadConfig 1 val generativeModel = GenerativeModel( 2 generationConfig = generationConfig, 3 4 ) 5

💻 5. Integración en apps: Petición scope.launch { // Un
único prompt val response = generativeModel.generateContent(prompt) // Varios mensajes val response = generativeModel.generateContent( content { text(message1) text(message2) ... } ) }

Momento demo 💣 Chat guiado por IA con Gemini Nano

📝 Resumen: puntos clave Gemini Nano: IA generativa para dispositivos
Android Dos variantes: 1.8B (texto) y 3.25B (multimodal) Optimizado para tareas específicas en dispositivo Ventajas: privacidad, latencia, funcionamiento offline Desventajas: requisitos hardware, precisión limitada Aplicaciones prácticas: resúmenes, transcripción, sugerencias de respuesta

📝 Resumen: aspectos técnicos Arquitectura: basada en AI Core con
modelo centralizado Integración: SDK mínimo 31 (Android 12) Dependencia: aicore:0.0.1-exp01 Configuración personalizable del modelo Disponibilidad: Dispositivos gama alta/media-alta Exclusivamente dispositivos Android

📝 Resumen: futuro de IA en dispositivo Evolución esperada: Modelos
más eficientes y potentes Mayor disponibilidad en dispositivos de gama media Ampliación de casos de uso multimodales Oportunidades para desarrolladores: Diferenciación en privacidad y funcionamiento offline Experiencias de usuario más rápidas y naturales Integración profunda con funcionalidades del dispositivo

🙋‍♀️🙋‍♂️ ¿Preguntas? 🌐 🎥 🐦 🦋 https://devexpert.io @devexpert_io @devexpert_io @antonioleiva.com

Explorando Gemini Nano: Integración de IA en Ap...

Explorando Gemini Nano: Integración de IA en Apps Android

More Decks by Antonio Leiva

Other Decks in Programming

Featured

Transcript