Upgrade to Pro — share decks privately, control downloads, hide ads and more …

BASTA! 2024: Real-World RAG: Eigene Daten & Dok...

BASTA! 2024: Real-World RAG: Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen

Slides for my talk about Advanced RAG at the BASTA 2024 conference in Mainz, Germany.

Sebastian Gingter

September 17, 2024
Tweet

More Decks by Sebastian Gingter

Other Decks in Programming

Transcript

  1. Real-World RAG: Eigene Daten & Dokumente mit semantischer Suche &

    LLMs erschließen Sebastian Gingter [email protected] Developer Consultant
  2. ▪ Was Sie ERWARTET ▪ Hintergrundwissen und Theorie zu RAG

    ▪ Überblick über Semantische Suche ▪ Probleme die auftreten können ▪ Pragmatische Methoden für die Verwendung eigener Daten im RAG ▪ Demos (Python) ▪ Was Sie NICHT erwartet ▪ ChatGPT, CoPilot(s) ▪ Grundlagen von ML ▪ Deep Dives in LLMs, Vektor-Datenbanken, LangChain Real-World RAG: Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG: Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen
  3. ▪ Generative AI in business settings ▪ Flexible and scalable

    backends ▪ All things .NET ▪ Pragmatic end-to-end architectures ▪ Developer productivity ▪ Software quality [email protected] @phoenixhawk https://www.thinktecture.com Real-World RAG: Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Sebastian Gingter Developer Consultant @ Thinktecture AG
  4. Special Day Generative AI für Business-Anwendungen Thema Sprecher Datum, Uhrzeit

    Large Language Models: Typische Use Cases & Patterns für Business- Anwendungen - in Action Christian Weyer DI, 17. September 2024, 10.45 bis 11.45 Real-World RAG: Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Sebastian Gingter DI, 17. September 2024, 12.15 bis 13.15 Von 0 zu Smart: SPAs mit Generative AI aufwerten Max Marschall DI, 17. September 2024, 15.30 bis 16.30 Deep Dive in OpenAI Hosted Tools Rainer Stropek DI, 17. September 2024, 17.00 bis 18.00
  5. 7 ▪ Ein bisschen Hintergrund-Info & Theorie ▪ Überblick über

    das Themengebiet Semantische Suche ▪ Probleme und mögliche Strategien ▪ Pragmatische Ansätze für die eigenen Daten ▪ Kein C#, sondern Python ▪ Kein Deep-Dive in ▪ LLMs ▪ Vektor-Datenbanken ▪ LangChain Was Euch erwartet (und was nicht): Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG:
  6. 8 ▪ Short Introduction to RAG ▪ Embeddings (and a

    bit of theory ) ▪ Vector-Databases ▪ Indexing ▪ Retrieval ▪ Not good enough? – Indexing II ▪ HyDE & alternative indexing methods ▪ Conclusion Agenda Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG:
  7. 9 Introduction Eigene Daten & Dokumente mit semantischer Suche &

    LLMs erschließen Real-World RAG: Introduction Embeddings Vector-DBs Indexing Retrieval Indexing II RAG
  8. 10 Use-case: Talk to my internal data Real-World RAG: Eigene

    Daten & Dokumente mit semantischer Suche & LLMs erschließen
  9. Real-World RAG: Eigene Daten & Dokumente mit semantischer Suche &

    LLMs erschließen Retrieval-augmented generation (RAG) Indexing & (Semantic) search Cleanup & Split Text Embedding Question Text Embedding Save Query Relevant Text Question LLM Vector DB Embedding model Embedding model Indexing / Embedding QA
  10. 12 ▪ Classic search: lexical ▪ Compares words, parts of

    words and variants ▪ Classic SQL: WHERE ‘content’ LIKE ‘%searchterm%’ ▪ We can search only for things where we know that its somewhere in the text ▪ New: Semantic search ▪ Compares for the same contextual meaning ▪ “Das Rudel rollt das runde Gerät auf dem Rasen herum” ▪ “The pack enjoys rolling a round thing on the green grass” ▪ “Die Hunde spielen auf der Wiese mit dem Ball” ▪ “The dogs play with the ball on the meadow” Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG: Semantic Search
  11. 13 ▪ How to grasp “semantics”? ▪ Computers only calculate

    on numbers ▪ Computing is “applied mathematics” ▪ AI also only calculates on numbers ▪ We need a numeric representation of meaning ➔ “Embeddings” Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG: Semantic Search
  12. 14 Embeddings Eigene Daten & Dokumente mit semantischer Suche &

    LLMs erschließen Real-World RAG: Introduction Embeddings Vector-DBs Indexing Retrieval Indexing II RAG
  13. 15 Embedding (math.) Real-World RAG: Eigene Daten & Dokumente mit

    semantischer Suche & LLMs erschließen ▪ Topologic: Value of a high dimensional space is “embedded” into a lower dimensional space ▪ Natural / human language is very complex (high dimensional) ▪ Task: Map high complexity to lower complexity / dimensions ▪ Injective function ▪ Similar to hash, or a lossy compression
  14. 16 ▪ Embedding model (specialized ML model) converting text into

    a numeric representation of its meaning ▪ Representation is a vector in an n-dimensional space ▪ n floating point values ▪ OpenAI ▪ “text-embedding-ada-002” uses 1536 dimensions ▪ “text-embedding-3-small” 512 and 1536 ▪ “text-embedding-3-large” 256, 1024 and 3072 ▪ Huggingface models have a very wide range of dimensions Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG: Embeddings https://huggingface.co/spaces/mteb/leaderboard & https://openai.com/blog/new-embedding-models-and-api-updates
  15. 17 ▪ Embedding models are unique ▪ Each dimension has

    a different meaning, individual to the model ▪ vectors from different models are incompatible with each other ▪ Some embedding models are multi-language, but not all ▪ In an LLM, also the first step is to embed the input into a lower dimensional space Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG: Embeddings
  16. 18 ▪ Mathematical quantity with a direction and length ▪

    Ԧ 𝑎 = 𝑎𝑥 𝑎𝑦 Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG: What is a vector? https://mathinsight.org/vector_introduction
  17. 19 Vectors in 2D Real-World RAG: Eigene Daten & Dokumente

    mit semantischer Suche & LLMs erschließen Ԧ 𝑎 = 𝑎𝑥 𝑎𝑦
  18. 20 Vectors in 3D Real-World RAG: Eigene Daten & Dokumente

    mit semantischer Suche & LLMs erschließen Ԧ 𝑎 = 𝑎𝑥 𝑎𝑦 𝑎𝑧
  19. 21 Vectors in multidimensional space Real-World RAG: Eigene Daten &

    Dokumente mit semantischer Suche & LLMs erschließen Ԧ 𝑎 = 𝑎𝑢 𝑎𝑣 𝑎𝑤 𝑎𝑥 𝑎𝑦 𝑎𝑧
  20. 23 𝐵𝑟𝑜𝑡ℎ𝑒𝑟 − 𝑀𝑎𝑛 + 𝑊𝑜𝑚𝑎𝑛 ≈ 𝑆𝑖𝑠𝑡𝑒𝑟 Word2Vec Mikolov

    et al., Google, 2013 Real-World RAG: Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Man Woman Brother Sister https://arxiv.org/abs/1301.3781
  21. 24 Embedding-Model Real-World RAG: Eigene Daten & Dokumente mit semantischer

    Suche & LLMs erschließen ▪ Task: Create a vector from an input ▪ Extract meaning / semantics ▪ Embedding models usually are very shallow & fast Word2Vec is only two layers ▪ Similar to the first step of an LLM ▪ Convert text to values for input layer ▪ This comparison is very simplified, but one could say: ▪ The embedding model ‘maps’ the meaning into the model’s ‘brain’
  22. 26 Embedding-Model Real-World RAG: Eigene Daten & Dokumente mit semantischer

    Suche & LLMs erschließen [ 0.50451 , 0.68607 , -0.59517 , -0.022801, 0.60046 , -0.13498 , -0.08813 , 0.47377 , -0.61798 , -0.31012 , -0.076666, 1.493 , -0.034189, -0.98173 , 0.68229 , 0.81722 , -0.51874 , -0.31503 , -0.55809 , 0.66421 , 0.1961 , -0.13495 , -0.11476 , -0.30344 , 0.41177 , -2.223 , -1.0756 , -1.0783 , -0.34354 , 0.33505 , 1.9927 , -0.04234 , -0.64319 , 0.71125 , 0.49159 , 0.16754 , 0.34344 , -0.25663 , -0.8523 , 0.1661 , 0.40102 , 1.1685 , -1.0137 , -0.21585 , -0.15155 , 0.78321 , -0.91241 , -1.6106 , -0.64426 , -0.51042 ] http://jalammar.github.io/illustrated-word2vec/
  23. 28 Embedding-Model Real-World RAG: Eigene Daten & Dokumente mit semantischer

    Suche & LLMs erschließen http://jalammar.github.io/illustrated-word2vec/
  24. 29 ▪ Embedding model: “Analog to digital converter for text”

    ▪ Embeds the high-dimensional natural language meaning into a lower dimensional-space (the model’s ‘brain’) ▪ No magic, just applied mathematics ▪ Math. representation: Vector of n dimensions ▪ Technical representation: array of floating point numbers Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG: Recap Embeddings
  25. Embeddings Sentence Transformers, local embedding model Real-World RAG: Eigene Daten

    & Dokumente mit semantischer Suche & LLMs erschließen DEMO
  26. 31 Vector-Databases Eigene Daten & Dokumente mit semantischer Suche &

    LLMs erschließen Real-World RAG: Introduction Embeddings Vector-DBs Indexing Retrieval Indexing II RAG
  27. 32 ▪ Mostly document-based ▪ Index: Embedding (vector) ▪ Document

    (content) ▪ Metadata ▪ Query functionalities Vector-Databases Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG:
  28. ▪ Pinecone ▪ Milvus ▪ Chroma ▪ Weaviate ▪ Deep

    Lakee ▪ Qdrant ▪ Elasticsearch ▪ Vespa ▪ Vald ▪ ScaNN ▪ Pgvector (PostgreSQL Extension) ▪ Faiss ▪ … Real-World RAG: Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Vector-Databases ▪ … (probably) coming to a relational database near you soon(ish) SQL Server Example: https://learn.microsoft.com/en-us/samples/azure-samples/azure-sql-db-openai/azure-sql-db-openai/
  29. 34 ▪ (Search-)Algorithms ▪ Cosine Similarity 𝑆𝐶(a,b) = a ∙𝑏

    𝑎 × 𝑏 ▪ Manhatten Distance (L1 norm, taxicab) ▪ Euclidean Distance (L2 norm) ▪ Minkowski Distance (~ generalization of L1 and L2 norms) ▪ L∞ ( L-Infinity), Chebyshev Distance ▪ Jaccard index / similarity coefficient (Tanimoto index) ▪ Nearest Neighbour ▪ Bregman divergence ▪ … Vector-Databases Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG:
  30. Vector database LangChain, Chroma, local embedding model Real-World RAG: Eigene

    Daten & Dokumente mit semantischer Suche & LLMs erschließen DEMO
  31. 36 Indexing Eigene Daten & Dokumente mit semantischer Suche &

    LLMs erschließen Real-World RAG: Introduction Embeddings Vector-DBs Indexing Retrieval Indexing II RAG
  32. 37 ▪ Loading ▪ Clean-up ▪ Splitting ▪ Embedding ▪

    Storing Indexing Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG:
  33. 38 ▪ Import documents from different sources, in different formats

    ▪ LangChain has very strong support for loading data ▪ Support for cleanup ▪ Support for splitting Loading Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG: https://python.langchain.com/docs/integrations/document_loaders
  34. 39 ▪ HTML Tags ▪ Formatting information ▪ Normalization ▪

    lowercasing ▪ stemming, lemmatization ▪ remove punctuation & stop words ▪ Enrichment ▪ tagging ▪ keywords, categories ▪ metadata Clean-up Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG:
  35. 40 ▪ Document is too large / too much content

    / not concise enough Splitting (Text Segmentation) Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG: ▪ by size (text length) ▪ by character (\n\n) ▪ by paragraph, sentence, words (until small enough) ▪ by size (tokens) ▪ overlapping chunks (token-wise)
  36. 41 ▪ Indexing Vector-Databases Eigene Daten & Dokumente mit semantischer

    Suche & LLMs erschließen Real-World RAG: Splitted (smaller) parts Embedding- Model Embedding 𝑎 𝑏 𝑐 … Vector- Database Document Metadata: Reference to original document
  37. 42 Retrieval (Search) Eigene Daten & Dokumente mit semantischer Suche

    & LLMs erschließen Real-World RAG: Introduction Embeddings Vector-DBs Indexing Retrieval Indexing II RAG
  38. 43 Retrieval Eigene Daten & Dokumente mit semantischer Suche &

    LLMs erschließen Real-World RAG: Embedding- Model Embedding 𝑎 𝑏 𝑐 … Vector- Database “What is the name of the teacher?” Query Doc. 1: 0.86 Doc. 2: 0.84 Doc. 3: 0.79 Weighted result … (Answer generation)
  39. Store and retrieval LangChain, Chroma, local embedding model, OpenAI GPT

    Real-World RAG: Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen DEMO
  40. 45 Indexing II Not good enough? Eigene Daten & Dokumente

    mit semantischer Suche & LLMs erschließen Real-World RAG: Introduction Embeddings Vector-DBs Indexing Retrieval Indexing II RAG
  41. 46 Not good enough? Eigene Daten & Dokumente mit semantischer

    Suche & LLMs erschließen Real-World RAG: ?
  42. 47 ▪ Semantic search still only uses your index ▪

    It’s just as good as your embeddings ▪ All chunks need to be ▪ Sh*t in, sh*t out Not good enough? Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG:
  43. 48 ▪ Search for a hypothetical Document HyDE (Hypothetical Document

    Embedddings) Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG: LLM, e.g. GPT-3.5-turbo Embedding 𝑎 𝑏 𝑐 … Vector- Database Doc. 3: 0.86 Doc. 2: 0.81 Doc. 1: 0.81 Weighted result Hypothetical Document Embedding- Model Write a company policy that contains all information which will answer the given question: {QUERY} “What should I do, if I missed the last train?” Query https://arxiv.org/abs/2212.10496
  44. 49 ▪ Downside of HyDE: ▪ Each request needs to

    be transformed through an LLM (slow & expensive) ▪ A lot of requests will probably be very similar to each other ▪ Each time a different hyp. document is generated, even for an extremely similar request ▪ Leads to very different results each time ▪ Idea: Alternative indexing ▪ Transform the document, not the query What else? Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG:
  45. 50 Alternative Indexing HyQE: Hypothetical Question Embedding Eigene Daten &

    Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG: LLM, e.g. GPT-3.5-turbo Transformed document Write 3 questions, which are answered by the following document. Chunk of Document Embedding- Model Embedding 𝑎 𝑏 𝑐 … Vector- Database Metadata: content of original chunk
  46. 51 ▪ Retrieval Alternative Indexing Eigene Daten & Dokumente mit

    semantischer Suche & LLMs erschließen Real-World RAG: Embedding- Model Embedding 𝑎 𝑏 𝑐 … Vector- Database Doc. 3: 0.89 Doc. 1: 0.86 Doc. 2: 0.76 Weighted result Original document from metadata “What should I do, if I missed the last train?” Query
  47. Compare embeddings LangChain, Qdrant, OpenAI GPT Real-World RAG: Eigene Daten

    & Dokumente mit semantischer Suche & LLMs erschließen DEMO
  48. Real-World RAG: Eigene Daten & Dokumente mit semantischer Suche &

    LLMs erschließen Retrieval-augmented generation (RAG) Indexing & (Semantic) search Cleanup & Split Text Embedding Question Text Embedding Save Query Relevant Text Question LLM Vector DB Embedding model Embedding model Indexing / Embedding QA
  49. 55 ▪ Tune text cleanup, segmentation, splitting ▪ HyDE or

    HyQE or alternative indexing ▪ How many questions? ▪ With or without summary ▪ Other approaches ▪ Only generate summary ▪ Extract “Intent” from user input and search by that ▪ Transform document and query to a common search embedding ▪ HyKSS: Hybrid Keyword and Semantic Search https://www.deg.byu.edu/papers/HyKSS.pdf ▪ Always evaluate approaches with your own data & queries ▪ The actual / final approach is more involved as it seems on the first glance Recap: Not good enough? Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG:
  50. 59 ▪ Semantic search is a first and fast Generative

    AI business use-case ▪ Quality of results depend heavily on data quality and preparation pipeline ▪ RAG pattern can produce breathtaking good results without the need for user training Conclusion Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG:
  51. Real-World RAG: Eigene Daten & Dokumente mit semantischer Suche &

    LLMs erschließen Sebastian Gingter [email protected] Developer Consultant Slides & Code https://www.thinktecture.com/de/sebastian-gingter