Java and AI: Building Production-Ready LLM Applications (Without the Hype)

Thomas Vitale Tech Hub Aarhus Day 12th Mar 2026 Java
and AI Building Production-Ready LLM Applications (Without the Hype) @thomasvitale.com

LLM RAG Prompting Embeddings Vector Stores Hallucinations Agents Generative AI
@thomasvitale.com MCP A2A ACP

The One Buzzword To Rule Them All @thomasvitale.com

The WHY Factor @thomasvitale.com

The WHY Factor What problem does it solve? How ready
is it for production? You get a great dev experience? @thomasvitale.com

Machine Learning Subset of Arti fi cial Intelligence Platform/Infrastructure Platform
Engineers HTTP API Application Developer Model Training Model Inference ML Engineers Data Preparation Data Scientists @thomasvitale.com

If you like it, you should put an API on
it @thomasvitale.com

Model Inference via HTTP APIs Application Model Inference Service Same
procedure as last year? HTTP Same procedure as every year Application Database Service @thomasvitale.com DELETE * FROM HYPE; JDBC 42

Systematic Thomas Vitale @thomasvitale.com

Java Application Architecture Observability Platform Exports telem etry Inference Service
Consum es LLM s @thomasvitale.com Database Reads/writes data Reads/writes data Document Service Processes docs Spring Boot Application Arconia Spring AI

ollama.com @thomasvitale.com

spring.io/projects/spring-ai @thomasvitale.com

Arconia Dev Services Zero-code, zero-con fi g external services >
arconia dev > gradle bootRun > mvn spring-boot:run @thomasvitale.com https://docs.arconia.io

Chat Inference Service Request Response Single Interactions Output Application @thomasvitale.com
Input

Arconia OpenTelemetry Spring Boot + Micrometer + OpenTelemetry @thomasvitale.com https://docs.arconia.io

Chatbot @thomasvitale.com “Legacy software companies adding an AI chatbot to
their product" @andykreed

Guardrails Inference Service Request Response Input and Output Input Output
Application Input Guardrail Output Guardrail @thomasvitale.com

Retrieval Augmented Generation Inference Service Request Response Question Answer Application
Augment with Context Prompt Augmentation with Retrieved Context Source Query @thomasvitale.com

Document Processing with Docling Data Preparation for GenAI Applications https://www.docling.ai/
@thomasvitale.com

Docling Java HTTP Integration Docling Java Java Application HTTP Service
Docling Serve HTTP https://github.com/docling-project/docling-java @thomasvitale.com

Arconia Docling Integrate Spring AI with Docling @thomasvitale.com https://docs.arconia.io

Retrieval Augmented Generation Inference Service Request Response Question Answer Application
Augment with Context Vector Stores Vector Store Semantic Search @thomasvitale.com

Chat Memory Inference Service Request Response Question Answer Application Multiple
Interactions @thomasvitale.com Augment with Memory Memory Read Update Memory Write

Tools Inference Service Request Tool Calling Question Response Answer Application
API Tool Call Tool Execution Tool Call Request Tool Call Response @thomasvitale.com

API MCP Server MCP Inference Service Request Tools Question Response
Answer Application Tool Call MCP Client Tool Call Request Tool Call Response @thomasvitale.com

Agents @thomasvitale.com Orchestration Query Response LLM uses uses Tool 1
uses Tool2 Agent

1979 IBM

Thomas Vitale @thomasvitale.com thomasvitale.com Java and AI Building Production-Ready LLM
Applications (Without the Hype) https://github.com/ThomasVitale/tech-hub-aarhus-day-2026 https://github.com/ThomasVitale/modular-rag

Java and AI: Building Production-Ready LLM Appl...

Java and AI: Building Production-Ready LLM Applications (Without the Hype)

Thomas Vitale

More Decks by Thomas Vitale

Other Decks in Technology

Featured

Transcript

Thomas Vitale Tech Hub Aarhus Day 12th Mar 2026 Java

LLM RAG Prompting Embeddings Vector Stores Hallucinations Agents Generative AI

The One Buzzword To Rule Them All @thomasvitale.com

The WHY Factor @thomasvitale.com

The WHY Factor What problem does it solve? How ready

Machine Learning Subset of Arti fi cial Intelligence Platform/Infrastructure Platform

If you like it, you should put an API on

Model Inference via HTTP APIs Application Model Inference Service Same

Systematic Thomas Vitale @thomasvitale.com

Java Application Architecture Observability Platform Exports telem etry Inference Service

ollama.com @thomasvitale.com

ollama.com @thomasvitale.com

spring.io/projects/spring-ai @thomasvitale.com

spring.io/projects/spring-ai @thomasvitale.com

Arconia Dev Services Zero-code, zero-con fi g external services >

Chat Inference Service Request Response Single Interactions Output Application @thomasvitale.com

Arconia OpenTelemetry Spring Boot + Micrometer + OpenTelemetry @thomasvitale.com https://docs.arconia.io

Chatbot @thomasvitale.com “Legacy software companies adding an AI chatbot to

Guardrails Inference Service Request Response Input and Output Input Output

Retrieval Augmented Generation Inference Service Request Response Question Answer Application

Document Processing with Docling Data Preparation for GenAI Applications https://www.docling.ai/

Docling Java HTTP Integration Docling Java Java Application HTTP Service

Arconia Docling Integrate Spring AI with Docling @thomasvitale.com https://docs.arconia.io

Retrieval Augmented Generation Inference Service Request Response Question Answer Application

Chat Memory Inference Service Request Response Question Answer Application Multiple

Tools Inference Service Request Tool Calling Question Response Answer Application

API MCP Server MCP Inference Service Request Tools Question Response

Agents @thomasvitale.com Orchestration Query Response LLM uses uses Tool 1

1979 IBM

Thomas Vitale @thomasvitale.com thomasvitale.com Java and AI Building Production-Ready LLM