Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Java-basierte KI auf Kubernetes: Von der Entwic...

Java-basierte KI auf Kubernetes: Von der Entwicklung bis zum Deployment mit Leichtigkeit

Du bist Java-Entwickler und neugierig auf KI, weißt aber nicht genau, wo du anfangen sollst? In dieser Session führen wir dich durch die Implementierung einer KI-Anwendung in Java und zeigen dir, wie du diese mühelos auf Kubernetes bereitstellen kannst.
Zu Beginn zeigen wir dir, wie Quarkus und LangChain4J die Entwicklung von KI-gesteuerten Anwendungen vereinfachen und komplexe Anwendungsfälle zugänglicher machen. Anschließend werden wir die Herausforderung der Ausführung von KI-Modellen in großem Maßstab mit dem Ollama Operator, einer leichtgewichtigen und dennoch robusten Model-Serving-Lösung für Kubernetes, betrachten. Wir werden auch untersuchen, warum Vektordatenbanken für viele KI-Anwendungsfälle von entscheidender Bedeutung sind. Anschließend diskutieren wir die Bedeutung einer unternehmenstauglichen KI-Plattform, die wichtige Themen wie Testing, Compliance und Sicherheit adressiert, um sicherzustellen, dass deine Organisation die Entwicklung von KI-Anwendungen effizient und regelkonform skalieren kann. In einer spannenden Live-Demo gehen wir den Aufbau und die Ausführung eines realen KI-Anwendungsfalls auf Kubernetes durch und zeigen dir Tools und Best Practices, die dir helfen, dein Projekt zum Erfolg zu führen. Egal, ob du KI-Neuling bist oder deine aktuellen Workflows optimieren möchtest, dieser Vortrag gibt dir praktische Einblicke, um deine KI-Reise in Java zu beschleunigen.

M.-Leander Reimer

December 03, 2024
Tweet

More Decks by M.-Leander Reimer

Other Decks in Programming

Transcript

  1. qaware.de Java-basierte KI auf Kubernetes Von der Entwicklung bis zum

    Deployment mit Leichtigkeit Mario-Leander Reimer [email protected] @LeanderReimer @qaware #CloudNativeNerd #gerneperdude
  2. "Laut Gartner scheitern 80% der PoCs auf dem Weg in

    die produktive Anwendung." https://www.qaware.de/ki-vom-proof-of-concept-poc-zur-entwicklung/
  3. The 80% Fallacy of AI projects. 4 QAware Juan Pablo

    Bottaro, LinkedIn Engineering Blog
  4. The 60% Fallacy of production ready AI projects. 5 QAware

    Wichtige Qualitätsattribute und Architekturtreiber werden aufgeschoben oder vernachlässigt.
  5. Key Challenges: Technologie, Modelle und Tools, Scaling. Source: https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai-in-2023-generative-ais-breakout-year ▪

    Je nach Maturity werden je nach Gruppe andere Herausforderungen gesehen ▪ AI Newcomer unterschätzen oft die Komplexität der Technologien, Modelle und Tools ▪ Production und Scaling Challenges behindern häufig die Production Readiness ▪ Hohe Cognitive Load und Mangel an Expertise sind ebenfalls Treiber für scheiternde Projekte 6
  6. vs

  7. Chatbots and AI Assistants: Je spezifischer der Use Case, desto

    komplexer wird es. ChatGPT or comparable with world knowhow ChatGPT with organisational context knowledge Specialized AI Assistent ▪ Retrieval Augment Generation ▪ Transfer Learning ▪ Speziell trainierte Modell ▪ Prozess-Automatisierung Complexity Benefit ▪ Einfach zu realisieren und relativ kosteneffizient ▪ Benötigt Richtlinien zu Datenschutz und Compliance 8 QAware
  8. Conceptual Demo Showcase Architecture 9 QAware REST Beer Service Chatbot

    Easy RAG Web UI Websockets gRPC Beer Service Ollama Model Llama 3.1 OpenAI Chat Service OpenAI Proxy REST Ollama Chat Service REST REST REST
  9. RAG in a Nutshell. 12 QAware Index, e.g. Vector DB

    Indexing (Chunking & Embedding) Documents Ingestion Phase Query Encoding Retrieval Phase Context Prompt LLM with world knowhow Response
  10. RAG Flavours in LangChain4j 13 QAware https://docs.langchain4j.dev/tutorials/rag/#rag-flavours-in-langchain4j https://docs.quarkiverse.io/quarkus-langchain4j/dev/easy-rag.html ▪ Easy

    RAG: der einfachste Weg, um mit RAG zu beginnen ▪ Naive RAG: eine grundlegende Implementierung von RAG unter Verwendung einer Vektorsuche ▪ Advanced RAG: ein modulares RAG-Framework, das zusätzliche Schritte wie die Umwandlung von Suchanfragen, das Abrufen von Daten aus mehreren Quellen und die Neueinstufung ermöglicht
  11. Die Kubernetes Cluster Topology erfordert genaue Planung. Sonst gehen einem

    die Kosten durch die Decke! 14 QAware ▪ Es gibt unterschiedliche GPU Maschinen ▪ Nicht alle Typen stehen in allen Regionen zur Verfügung ▪ Die Preise unterscheiden sich drastisch, eine genaue Recherche ist empfohlen ▪ Zusätzliche lokale SSDs sind empfohlen ▪ Zu entscheiden: – alles Nodes mit GPU – unterschiedliche Nodes optimiert für normale als auch GPU Workloads https://cloud.google.com/compute/gpus-pricing?hl=de#other-gpu-models
  12. Integration & Delivery Plane Service Plane Platform Plane Resource Plane

    Quality Plane Compliance Plane Foundation Foundation Interfaces Domain Services Domain Services Domain Services
  13. Compliance Plane Integration & Delivery Plane Service Plane Platform Plane

    Operability Resource Plane Compute Data: Local SSD Integration Security Delivery FinOps Quality Plane Data Plane Model Plane User Serving Plane Access Plane Data Modelling Pl.
  14. Compliance Plane Integration & Delivery Plane Service Plane Platform Plane

    Operability Resource Plane Compute Data: Local SSD Integration Security Delivery FinOps Quality Plane Data Plane Model Plane User Serving Plane Access Plane Data Modelling Pl. 💡Don't forget to Test: Crafting Reliable Chatbots mit Marcus Ciolkowski
  15. Compliance Plane Integration & Delivery Plane Service Plane Platform Plane

    Operability Resource Plane Compute Data: Local SSD Integration Security Delivery FinOps Quality Plane Data Plane Model Plane User Serving Plane Access Plane Data Modelling Pl.
  16. QAware GmbH | Aschauer Straße 30 | 81549 München |

    GF: Dr. Josef Adersberger, Michael Stehnken, Michael Rohleder, Mario-Leander Reimer Niederlassungen in München, Mainz, Rosenheim, Darmstadt | +49 89 232315-0 | [email protected] Thank you!