Upgrade to Pro — share decks privately, control downloads, hide ads and more …

IA GENERATIVA

IA GENERATIVA

Avatar for Abraham Zamudio

Abraham Zamudio

April 10, 2025
Tweet

More Decks by Abraham Zamudio

Other Decks in Education

Transcript

  1. Antecedentes de la Inteligencia Artificial Generativa • Investigación Interdisciplinaria o

    Teoría de la información o Estadística o Neurociencia o Ciencias de la computación. • Alan Turing (1950) Propuso que las máquinas podrían emular procesos cognitivos mediante algoritmos • Good Old- Fashioned AI (1950-1960) Este enfoque se basaba en la idea de que la inteligencia podía replicarse mediante la manipulación de símbolos abstractos y reglas lógicas, inspirado en la noción de que la cognición humana funciona como un sistema de procesamiento de información simbólico • La Resurgencia (1980-1990) • Redes de Hopfield (1982) • Máquinas de Boltzmann (1985) • Algoritmo de Retropropagación (1986) • En los 2000 o Big Data o GPU o Técnicas de Optimización
  2. Word2Vec (Mikolov et al., 2013) Demostró que embeddings vectoriales podrían

    capturar semántica, allanando el camino para modelos generativos en lenguaje. Fundamentos de Word2Vec: • Representación Distribuida: • Word2Vec se basa en la idea de que el significado de una palabra se puede inferir a partir de su contexto, es decir, las palabras que la rodean. • En lugar de tratar las palabras como símbolos aislados, Word2Vec las representa como vectores densos en un espacio multidimensional. • La posición de un vector de palabras en este espacio refleja su relación con otras palabras. Palabras con significados similares tienden a estar cerca unas de otras. • Modelos Predictivos: • Word2Vec utiliza modelos predictivos para aprender las representaciones vectoriales de las palabras. • Estos modelos se entrenan en grandes conjuntos de datos de texto, donde aprenden a predecir palabras basándose en su contexto. • Los dos modelos principales de Word2Vec son: • CBOW (Continuous Bag of Words): Este modelo predice una palabra objetivo basándose en las palabras de contexto que la rodean. • Skip-gram: Este modelo hace lo contrario, prediciendo las palabras de contexto a partir de una palabra objetivo.
  3. 1 Arquitectura del Modelo: • Ambos modelos (CBOW y Skip-gram)

    utilizan una red neuronal de tres capas: una capa de entrada, una capa oculta y una capa de salida. • La capa de entrada representa las palabras de contexto (en el caso de CBOW) o la palabra objetivo (en el caso de Skip-gram) como vectores "one-hot". • La capa oculta es donde se aprenden los embeddings de las palabras. • La capa de salida predice la palabra objetivo (en el caso de CBOW) o las palabras de contexto (en el caso de Skip-gram). Componentes Clave de Word2Vec: 2 Entrenamiento: • El entrenamiento de Word2Vec implica ajustar los pesos de la red neuronal para minimizar el error de predicción. • Se utilizan técnicas de optimización como el descenso de gradiente para actualizar los pesos de la red. • Para mejorar la eficiencia del entrenamiento, se utilizan técnicas como: • Muestreo Negativo: En lugar de actualizar todos los pesos de la red en cada paso, el muestreo negativo solo actualiza los pesos de unas pocas palabras negativas (palabras que no aparecen en el contexto). • Softmax Jerárquico: Esta técnica utiliza un árbol binario para representar el vocabulario, lo que reduce la complejidad computacional del cálculo de la función softmax. CBOW SKIP-Gram
  4. 3 Vectores de Palabras (Embeddings): • Una vez entrenado el

    modelo, los pesos de la capa oculta se utilizan como los embeddings de las palabras. • Estos embeddings capturan las relaciones semánticas y sintácticas entre las palabras. • Por ejemplo, los embeddings de palabras como "rey" y "reina" estarán cerca en el espacio vectorial, ya que tienen significados similares. Componentes Clave de Word2Vec: Word2Vec ha demostrado ser muy eficaz para capturar las relaciones entre palabras, lo que ha llevado a mejoras significativas en una amplia gama de tareas de PLN, como: o Recuperación de información o Traducción automática o Análisis de sentimientos o Reconocimiento de entidades nombradas Importancia de Word2Vec
  5. 1. Ambigüedad y Polisemia: • Problema: • Word2Vec asigna un

    único vector a cada palabra, lo que dificulta la representación de palabras con múltiples significados (polisemia). • Por ejemplo, la palabra "banco" puede referirse a una institución financiera o a un asiento. Word2Vec generará un solo vector que intentará capturar ambos significados, lo que puede resultar en una representación ambigua. • Caso de uso: • En un sistema de análisis de sentimientos, la palabra "banco" podría interpretarse incorrectamente si el contexto no se tiene en cuenta adecuadamente. Esto podría llevar a clasificaciones erróneas de opiniones. Limitaciones de Word2Vec 2. Contexto Limitado: • Problema: • Word2Vec considera únicamente el contexto local de las palabras (las palabras que las rodean) para generar los vectores. • Esto puede limitar su capacidad para capturar relaciones semánticas más complejas que requieren un contexto más amplio. • Caso de uso: • En tareas de resumen de textos, Word2Vec podría tener dificultades para identificar las relaciones entre ideas que se encuentran en diferentes partes del texto.
  6. 3. Datos de Entrenamiento: • Problema: • La calidad de

    los vectores de Word2Vec depende en gran medida de la calidad y cantidad de los datos de entrenamiento. • Si los datos de entrenamiento son sesgados o insuficientes, los vectores resultantes pueden ser inexactos o reflejar esos sesgos. • Caso de uso: • Si se entrena un modelo Word2Vec con un conjunto de datos que contiene lenguaje sexista, los vectores resultantes podrían reforzar esos sesgos. Limitaciones de Word2Vec 4. Palabras Fuera del Vocabulario (OOV): • Problema: • Word2Vec no puede generar vectores para palabras que no están presentes en el vocabulario del modelo. • Esto puede ser un problema para tareas que involucran textos con palabras raras o especializadas. • Caso de uso: • En un sistema de búsqueda de información médica, Word2Vec podría no ser capaz de procesar términos médicos poco comunes.
  7. 5. Limitaciones Sintácticas: • Problema: • Si bien Word2vec captura

    relaciones semánticas, tiene limitaciones para comprender la sintaxis compleja. No modela de manera explicita la estructura gramatical de las frases. • Casos de uso: • En tareas de análisis sintáctico o de generación de lenguaje que dependen fuertemente de la estructura gramatical, Word2vec por si solo no es suficiente. Limitaciones de Word2Vec Posibles Soluciones y Consideraciones: • Modelos más recientes, como BERT y otros transformers, abordan algunas de estas limitaciones al considerar un contexto más amplio y al generar vectores contextualizados. • El uso de técnicas de subpalabras (subword) puede ayudar a manejar palabras OOV. • Para solucionar la ambigüedad, se han desarrollado modelos que generan múltiples vectores por palabra, dependiendo del contexto en el que se encuentren.
  8. 2017 - Presente: La Era de los Transformers y los

    Modelos de Lenguaje a Gran Escala (LLM) Transformers: • La arquitectura Transformer, introducida en el artículo "Attention Is All You Need", superó a las RNN en muchas tareas de PLN. Los Transformers, con su mecanismo de autoatención, pueden capturar dependencias a largo plazo de manera más eficiente. BERT y Modelos Pre-entrenados: • BERT (Bidirectional Encoder Representations from Transformers) y otros modelos pre-entrenados transformaron el PLN al permitir el aprendizaje por transferencia. Estos modelos, entrenados en grandes cantidades de texto, pueden ser ajustados para tareas específicas con menos datos. Modelos de Lenguaje a Gran Escala (LLM): • Los LLM, como GPT-3 y sus sucesores, han demostrado capacidades impresionantes en la generación de texto, la traducción y la respuesta a preguntas. Estos modelos, entrenados en conjuntos de datos masivos, pueden generar texto coherente y fluido que se asemeja a la escritura humana. • La aparicion de los LLM, han provocado una revolucion en la forma en que se interactua con las maquinas, abriendo nuevas posibilidades en diferentes ambitos. Avances Recientes (2023-2024): • Continua el desarrollo de LLM, con enfoque en la eficiencia, la reducción de sesgos y la mejora de la comprensión contextual. • Se esta dando mayor enfoque en los modelos de lenguaje multimodal. • La generación aumentada por recuperacion (RAG) se esta convirtiendo en una tecnica muy usada para mejorar la precision de los LLM.
  9. La era de los PROMPT Un "prompt" para un Modelo

    de Lenguaje Grande (LLM, por sus siglas en inglés) es, en esencia, la entrada de texto que se le proporciona al modelo para generar una respuesta. Es la instrucción inicial que guía al LLM sobre qué tipo de información o tarea se espera que realice. LLM Developer Multimodal? Reasoning? Access GPT-4o OpenAI Yes No Chatbot and API o3 and o1 OpenAI No Yes Chatbot and API Gemini Google Yes No Chatbot and API Gemma Google No No Open Llama Meta No No Chatbot and open R1 DeepSeek No Yes Chatbot, API, and open V3 DeepSeek No No Chatbot, API, and open Claude Anthropic Yes Yes Chatbot and API Command Cohere No No API Nova Amazon Yes No API Large 2 Mistral AI Yes (Pixtral) No API Qwen Alibaba Cloud Yes (Qwen2.5-VL) No Chatbot, API, and open Phi Microsoft No No Open Grok xAI No Yes Chatbot and open
  10. 1. Sé claro y específico: • Define el objetivo: •

    En lugar de preguntas vagas, como "¿Háblame de historia?", especifica: "Explica las causas y consecuencias de la Segunda Guerra Mundial". • Cuanto más claro sea tu objetivo, mejor podrá el LLM entender y responder. • Utiliza un lenguaje preciso: • Evita la ambigüedad. Si necesitas información sobre un "banco", especifica si te refieres a una institución financiera o a un asiento. • Establece el formato: • Si deseas una respuesta en forma de lista, tabla o párrafo, indícalo claramente. Estrategias para escribir buenos prompts 2. Proporciona contexto: • Incluye información relevante: • Si preguntas sobre un evento, menciona la fecha, el lugar y los participantes clave. • El contexto ayuda al LLM a generar respuestas más precisas y relevantes. • Define el rol: • Puedes pedirle al LLM que adopte un rol específico, como "Actúa como un experto en marketing y explica...". • Esto puede ayudar a moldear la respuesta para que se adecue mejor a tus necesidades. • Delimita la información: • Si tienes un trozo de texto sobre el cual quieres que el LLM trabaje, delimitado con comillas triples, o etiquetas XML, puedes decirle que trabaje sobre ese texto en especifico.
  11. 3. Sé iterativo: • Refina tus prompts: • Si la

    primera respuesta no es satisfactoria, ajusta tu prompt y vuelve a intentarlo. • Experimenta con diferentes formulaciones y niveles de detalle. • Proporciona retroalimentación: • Si el LLM comete un error, corrígelo. Esto puede ayudar a mejorar futuras respuestas. Estrategias para escribir buenos prompts 4. Utiliza ejemplos: • "Few-shot prompting": • Proporciona algunos ejemplos de la tarea que deseas que el LLM realice. • Esto puede ayudar al modelo a comprender mejor tus expectativas.
  12. 5. Consideraciones adicionales: • Tono y estilo: • Especifica el

    tono deseado (formal, informal, amigable, etc.). • También puedes indicar el estilo de escritura (conciso, detallado, etc.). • Restricciones: • Si hay información que deseas evitar, indícalo claramente. • Por ejemplo, "No incluyas opiniones personales". Estrategias para escribir buenos prompts