Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Seguridad y auditorías en Modelos grandes del l...

Seguridad y auditorías en Modelos grandes del lenguaje (LLM)

Esta charla pretende analizar la seguridad de estos modelos de lenguaje desde el punto de vista del desarrollador, analizando las principales vulnerabilidades que se pueden producir en la generación de estos modelos. Entre los principales puntos a tratar podemos destacar:
Introducción a LLM
Introducción al OWASP LLM Top 10
Seguridad en aplicaciones que manejan modelos LLM.
Herramientas de auditoría en aplicaciones que manejan modelos LLM.
Caso de uso con la herramienta textattack para realizar ataques adversarios

Avatar for jmortegac

jmortegac

July 13, 2025
Tweet

More Decks by jmortegac

Other Decks in Technology

Transcript

  1. UCIBER 2025 JOSÉ MANUEL ORTEGA CANDEL UCIBER CONGRESS 2025 Seguridad

    y auditorías en Modelos grandes del lenguaje (LLM)
  2. UCIBER 2025 What are we working on? Ingeniería en informática

    Master ciberseguridad y ciencia de datos Consultoría y docencia universitaria https://josemanuelortegablog.com https://www.linkedin.com/in/jmortega1
  3. UCIBER 2025 Introducción a LLM Herramientas de auditoría en aplicaciones

    que manejan modelos LLM Caso de uso con la herramienta textattack para realizar ataques adversarios 01. Introducción al OWASP LLM Top 10 Seguridad en aplicaciones que manejan modelos LLM 02. 03. 04. 05. Table of contents
  4. UCIBER 2025 Introducción a LLM Transformers Attention is All You

    Need" by Vaswani et al. in 2017 Mecanismo auto-atención Arquitectura Encoder-Decoder
  5. UCIBER 2025 Adversarial Attacks 1. Prompt Injection 2. Evasion Attacks

    3. Poisoning Attacks 4. Model Inversion Attacks 5. Model Stealing Attacks 6. Membership Inference Attacks
  6. UCIBER 2025 Herramientas para evaluar la robustez de los modelos

    FGSM (Fast Gradient Sign Method) PGD (Projected Gradient Descent) DeepFool
  7. UCIBER 2025 Herramientas para evaluar la robustez de los modelos

    PromptInject Framework https://github.com/agencyenterprise/PromptInject PAIR - Prompt Automatic Iterative Refinement https://github.com/patrickrchao/JailbreakingLLMs TAP - Tree of Attacks with Pruning https://github.com/RICommunity/TAP
  8. UCIBER 2025 Herramientas para evaluar la robustez de los modelos

    https://github.com/tensorflow/fairness-indicators
  9. UCIBER 2025 Herramientas para evaluar la robustez de los modelos

    https://deepeval.com/ Evaluación Automatizada y Objetiva Métricas de Evaluación Integradas Integración con otros LLM
  10. UCIBER 2025 Herramientas de auditoría Filtrado dinámico de entrada Normalización

    y contextualización del prompt Políticas de respuesta segura Monitorización activa y respuesta automática
  11. UCIBER 2025 Text attack https://github.com/QData/TextAttack Original Text: "I absolutely loved

    this movie! The plot was thrilling, and the acting was top-notch." Adversarial Text: "I completely liked this film! The storyline was gripping, and the performance was outstanding."
  12. UCIBER 2025 Text attack https://github.com/QData/TextAttack from textattack.augmentation import WordNetAugmenter #

    Use WordNet-based augmentation to create adversarial examples augmenter = WordNetAugmenter() # Augment the training data with adversarial examples augmented_texts = augmenter.augment(text) print(augmented_texts)