ABCS25: Enhancing Legal Document Analysis with Reflection Agents, Semantic Kernel, and Azure AI Search by Cédric Mendelin

ENHANCING LEGAL DOCUMENT ANALYSIS WITH REFLECTION AGENTS, SEMANTIC KERNEL, AND
AZURE AI SEARCH

CÉDRIC MENDELIN Software Developer - isolutions AG

AGENDA LLM Basics Customer Project - FTA The Microsoft Way
- Azure AI Services Step-by-Step Improvements - FTA Conclusion

LLM BASICS

PROMPT History Parameters (Top-P, Temperature) System Message (Persona) Input

What is the current date?

RAG – RETRIEVAL-AUGMENTED GENERATION Search Engine Data Model User Application

RETRIEVAL STEP Is the document relevant for the query? +
=

EMBEDDINGS Source: https://weaviate.io/blog/how-to-choose-an-embedding-model

VECTOR SEARCH VECTORIZE DATA VECTORIZE QUERY VECTOR SEARCH (COSINE SIMILARITY)

FEDERAL TAX ADMINISTRATION

Federal Tax Administration 4 k

LAWS AND ORDINANCES (XML)

COURT RULING – FTA PUBLICATIONS (PDF)

CHALLENGES Wording/Style of texts Citation requirement Hierarchy in data Amount
of data

AZURE AI SERVICES

AZURE AI SERVICES OpenAI Vision Speech Language Content Safety Face
Document Intelligence Azure AI services AI Search AI Agent Service AI Model Inference AI Foundry

LOW-CODE VS. PRO-CODE Source: Guest Blog: Semantic Kernel and Copilot
Studio Usage Series - Part 1 | Semantic Kernel

AZURE OPEN AI • Models • Deployments • Fine Tuning

AI SEARCH • Index • Fields • Chunk • Vector
Store • Query Processing • Reranking + other advanced features • Indexer & Skills

DOCUMENT INTELLIGENCE SERVICE • Markdown • Layout • Tables

SEMANTIC KERNEL • Open-Source SDK • Middleware • Abstraction over
different Models

RAG – Azure OpenAI on your data Azure OpenAI Azure
AI Search

What is the current date?

STEP-BY-STEP IMPROVEMENTS FTA

1ST ITERATION

1ST ITERATION Focus on 50 documents Index Laws per article
Index PDFs per page Azure Open AI – on your data Vector Search

AZURE OPENAI – ON YOUR DATA

1ST ITERATION – FEEDBACK Relevant documents not found Hallucination Poor
Answer Quality Other reasons

2ND ITERATION

2ND ITERATION Hybrid Search Prompting Writing Profiles (Persona) Chat Settings

HYBRID SEARCH PIPELINE Vector Search Text Search N Search Results
Derive Vector Query Derive Text Query

HYBRID SEARCH CODE

2ND ITERATION - FEEDBACK Relevant documents not found Hallucination Poor
Answer Quality Other reasons

We need more than a gut feeling

LLM EVALUATION

EVALUATION TYPES LLM evaluation How good the foundation models performs
on a certain task. LLM system evaluation How good the LLM performs in your specific use case, on your data, in your domain.

EVALUATION PIPELINE LLM System Evaluation Dataset Evaluators Score Input Reference
Answer Expected Chunk Answer

LLM SYSTEM EVALUATION - METRICS Reference-based Reference-free LLM based

MEAI.EVALUATION OVERVIEW • Open-source • Predefined LLM-based evaluators • Interface
for custom-evaluators • Local and Azure Storage Account • In Preview

MEAI.EVALUATION.CONSOLE

EVALUATION QUESTIONS Question Reference Answer Expected Chunk(s) Category

EVALUATION RESULTS 40 45 37 43 0 10 20 30
40 50 60 70 80 90 100 Vector Search Hybrid Search % LLM system evaluation – Retrieval Step Provided source Applied source

EVALUATION RESULTS 0.8 0.85 0.948 0.948 0.914 0.917 0.41 0.4
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Vector Search Hybrid Search LLM system evaluation Relevance Groundedness Cosine Sim Embedding Euclidean Distance

3RD ITERATION

3RD ITERATION AI Enrichment Semantic Reranking

AI ENRICHMENT

SEMANTIC RERANKING Vector Search Text Search N Search Results Derive
Vector Query Derive Text Query Reranking

SEMANTIC RERANKING

3RD ITERATION - FEEDBACK Retrieval improved Sometimes poor Answer Quality
Other reasons

EVALUATION RESULTS 40 45 54 79 37 43 49 75
0 10 20 30 40 50 60 70 80 90 100 Vector Search Hybrid Search Hybrid Search with Summary Hybrid Search with Reranking LLM system evaluation – Retrieval Step Provided source Applied source

EVALUATION RESULT 0.8 0.85 0.9 0.948 0.948 0.988 0.914 0.917
0.927 0.41 0.4 0.37 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Vector Search Hybrid Search Hybrid Search with Reranking LLM system evaluation Relevance Groundedness Cosine Sim Embedding Euclidean Distance

4TH ITERATION

4TH ITERATION Reflection Agent

REFLECTION AGENT Writer Agent Critic Agent N Fact Checker Style
Checker Citation Checker

IMPLEMENTATION • Not supported by Azure OpenAI - On your
data • Derive Text Query • Using Azure AI Search SDK + Autogen

DERIVE TEXT QUERY

4TH ITERATION - FEEDBACK Other Reason

EVALUATION – EXECUTION TIME 2889 2925 1999 2170 2966 0
500 1000 1500 2000 2500 3000 3500 OYOD - Hybrid OYOD - Hybrid + SR Custom - Hybrid Custom - Hybrid + SR Custom - Hybrid + SR + Reflection ms LLM system evaluation

EVALUATION RESULTS 0.9 0.9 0.98 0.97 0.926 0.925 0.41 0.4
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Single Agent Multi Agent LLM system evaluation Relevance Groundedness Cosine Sim Embedding Euclidean Distance

CONCLUSION

CONCLUSION • Step-by-Step Improvements • SK is your SDK of
choice • Azure AI Search for unstructured data • Use Advanced Search Capabilities • Start Evaluating early • What is your Use case • Business Value & Innovation

REFERENCES • Flaticon.com (for used icons) • Snappify (for code
snippets) • The Microsoft.Extensions.AI.Evaluation libraries (Preview) • Evaluating Large Language Model (LLM) systems: Metrics, challenges, and best practices • Evaluation and monitoring metrics for generative AI • LLM Evaluation Metrics: The Ultimate LLM Evaluation Guide • A list of metrics for evaluation LLM-generated content • https://github.com/joslat/AgenticAIAutoGen

ABCS25: Enhancing Legal Document Analysis with ...

ABCS25: Enhancing Legal Document Analysis with Reflection Agents, Semantic Kernel, and Azure AI Search by Cédric Mendelin

More Decks by Azure Zurich User Group

Other Decks in Technology

Featured

Transcript