Hver fjerde dag står en ny kunde foran os og siger "vi vil have en RAG-chatbot på vores dokumenter". Halvdelen af dem har allerede prøvet og fejlet. Det er ikke fordi RAG ikke virker — det er fordi de fleste implementerer det forkert. Her er hvad der reelt skiller succes fra fiasko.
Hvad RAG faktisk er — uden buzzwords
Retrieval-Augmented Generation kombinerer to ting: en AI-model (typisk Claude, GPT eller Gemini) og en søgning i jeres egne dokumenter. I stedet for at lade AI'en svare ud fra sin generelle viden, giver vi den relevante kontekst fra jeres data først.
Et typisk RAG-flow:
- Brugeren stiller et spørgsmål
- Vi laver en søgning i jeres dokumenter (oftest via vector search)
- Vi finder de 3-10 mest relevante uddrag
- Vi sender uddragene + brugerens spørgsmål til AI-modellen
- Modellen svarer baseret på den specifikke kontekst
Resultatet: AI'en kan besvare spørgsmål om jeres specifikke produkter, kontrakter eller processer — uden at hallucinere generelle svar.
Hvornår RAG giver mening
- Kundeservice hvor svar findes i jeres dokumentation, FAQ eller produktbeskrivelser
- Intern viden der ligger spredt i Confluence, Notion, Google Drive
- Juridisk eller compliance med store kontrakt- eller regelsæt
- Teknisk support over brugermanualer og produktdata
Hvornår RAG IKKE giver mening
- Når svar kræver beregninger eller logik (brug agent + tools i stedet)
- Når data ændrer sig minut-for-minut (RAG er optimeret til statisk-ish data)
- Når brugerens spørgsmål typisk er meget abstrakte (svært at retrieve relevant kontekst)
- Når I kun har 20-50 dokumenter total — så bare put dem direkte i prompt'en
De 5 fælder vi ser igen og igen
1. Forkert chunking
Når I splitter dokumenter op i chunks, taber I ofte sammenhæng. En FAQ-side delt på "100 ord ad gangen" kan splitte spørgsmål fra svar. Sigte efter semantisk chunking — split på naturlige grænser (afsnit, sektioner, h-tags) og overvej overlap på 10-20%.
2. Generisk embedding-model
Mange bruger OpenAI's ada-002 til alt. Til dansk kontekst er text-embedding-3-large eller specifikke multilingual modeller markant bedre. Forskellen kan være 15-30% bedre retrieval på samme data.
3. Ingen re-ranking
Vector search returnerer "ligner-noget"-resultater. Tilføj en re-ranking-fase (fx Cohere Rerank eller en mindre LLM) der vurderer "er det her reelt relevant for spørgsmålet?". Det fanger irrelevante top-5-resultater.
4. Manglende citations
Hvis AI'en svarer "iflg. afsnit 4.2 i jeres kontrakt..." og linker til kilden, bygges tillid. Hvis svaret bare er en flyderum-tekst, har brugeren ingen måde at verificere. Vi tvinger altid citations i system-prompten.
5. Ingen evaluation
De fleste sætter RAG i produktion uden at måle hvor ofte den giver forkerte svar. Byg et eval-set af 50-100 typiske spørgsmål med forventede svar. Kør evals månedligt.
Vores anbefalede stack i 2026
- Vector DB: Supabase + pgvector for SMV-projekter. Pinecone eller Weaviate hvis enterprise-skala
- Embeddings: OpenAI text-embedding-3-large eller Cohere embed-multilingual-v3
- LLM: Claude Sonnet 4.6 for kvalitet, Haiku 4 for volumen
- Re-rank: Cohere Rerank 3 eller en lille Claude Haiku-call
- Orkestrering: Direkte API-kald eller LangChain hvis komplekst
Hvad det koster i praksis
For en typisk SMV med 5.000 dokumenter og 500 forespørgsler/dag:
- Vector DB (Supabase): inkl. i deres pro-plan ~ 250 kr/md
- Embeddings (engangs): ~ 50 kr
- LLM-kald: ~ 1.500-3.000 kr/md (Claude Sonnet)
- Total: 2.000-3.500 kr/md i kørselsomkostninger
Implementering: 3-6 uger fra start til produktion afhængigt af kompleksitet.
Leder du efter en strategisk partner?
Læsning flytter ikke nålen i sig selv. Vi implementerer disse strategier for krævende B2B virksomheder hver dag. Få en skræddersyet roadmap.
Få en 30-min Strategisession