LLM-evaluering: Sådan måler du om jeres AI faktisk er god nok

Den største blinde plet i danske AI-projekter er evaluation. Folk bygger en chatbot, "tester den lidt", og lancerer. Tre måneder senere undrer de sig over at brugerne klager. Her er hvordan man fanger problemer før kunderne gør.

Hvorfor "vibe testing" ikke er nok

De fleste AI-løsninger testes på en håndfuld eksempler. "Ja, det her ser fint ud." Men reel kvalitet kræver:

Reproducérbarhed (samme input → samme score over tid)
Coverage (er alle vigtige use cases testet?)
Regression detection (er nye prompt-ændringer en forbedring eller forværring?)

Uden disse tre er du i bedste fald heldig.

Eval-typer i praksis

1. Exact match / regex evals

Bedst til klassificering ("er det her email spam: ja/nej") eller struktureret output (JSON-validering). Hurtigt, billigt, præcist.

2. LLM-as-judge

Lad en stærkere model (typisk Claude Opus eller GPT-5) vurdere output fra en mindre model. Du beskriver kriterierne ("er svaret faktisk korrekt baseret på kilden?"), og judge-modellen scorer.

Fungerer godt til subjektive kvaliteter (tone, korrekthed, relevans). Lille bias, men acceptabel hvis judge er stærkere end produktion-modellen.

3. Human review

For højrisiko-output (jura, medicin, kunde-vendt) er menneskelig review uundgåelig. Sample 5-10% af produktions-output ugentligt og review manuelt.

4. User feedback loops

Bed brugerne om thumbs-up/thumbs-down på AI-svar. Aggregér over tid. Lavpraktisk men reelt powerful.

Vores eval-workflow

Saml et eval-sæt på 50-200 "gyldne" eksempler med forventede svar. Bedst hvis det er rigtige bruger-spørgsmål, ikke opfundne.
Definer scoring-kriterier: korrekthed, format, tone, fuldstændighed. 3-5 dimensioner max.
Automatisér eval-kørsel så I kan trykke "Run evals" hver gang prompt eller model ændres.
Tracker over tid i et simpelt dashboard. Score skal stige eller forblive stabil.
Spot-check tabere: når en eval fejler, læs det manuelt. Det er guld til prompt-improvement.

Værktøjer vi bruger

Promptfoo — open source, simpelt, godt til CLI-baseret eval. Vores default for SMV-projekter.
Braintrust — betalt, super UI, holder track af eksperimenter. God til større teams.
LangSmith — bedst hvis I bruger LangChain. Tæt integreret.
Egne scripts — for små use cases er 50 linjer Python ofte nok.

Eksempel: chatbot for et SaaS-firma

Kunden havde bygget en RAG-chatbot på deres docs. "Den virker." Vi byggede et eval-sæt på 80 reelle support-spørgsmål med kendte korrekte svar.

Resultat: chatbotten var korrekt på 62% af spørgsmålene. De vidste det ikke. Ved at:

Forbedre chunking-strategien (+8 points)
Tilføje re-ranking før LLM-kald (+12 points)
Justere system-prompt med eksempler (+6 points)
Skifte fra Haiku til Sonnet (+4 points)

...nåede vi 92% korrekt på 4 uger. Uden eval-sættet havde de aldrig vidst at de var i den røde zone.

Hvad det koster

For en typisk eval-opsætning:

Eval-sæt (50-100 eksempler manuelt kurateret): 2-4 dages arbejde
Eval-pipeline (Promptfoo + GitHub Actions): 1-2 dage
Drift: kør ved hver release + ugentligt på produktion-sample → ~ 50-200 kr/md i LLM-kald

Sammenlignet med kost af en dårlig AI i produktion er det den nemmeste investering at retfærdiggøre.

Leder du efter en strategisk partner?

Læsning flytter ikke nålen i sig selv. Vi implementerer disse strategier for krævende B2B virksomheder hver dag. Få en skræddersyet roadmap.

Få en 30-min Strategisession