Dansk sprogkvalitet: hvor naturligt skriver modellerne på dansk?
Metode
Tallene nedenfor er preliminære estimater baseret på: (1) ScandEval-leaderboardet (offentlig dansk/nordisk NLU benchmark, scandeval.com), (2) vores egen erfaring fra produktionsbrug af modellerne i danske virksomheder, (3) community-feedback fra danske udviklere. Vi udgiver målte tal Q3 2026 — kør gerne scripts/benchmarks/run-danish.ts hvis du vil verificere selv (50 prompts × 7 modeller, scored af Claude Sonnet 4.5 som uafhængig judge).
Samlet rangering
Claude Sonnet 4.5
92
Bedst på dansk overall
Claude Haiku 4.5
88
Stærk, billigere variant
GPT-5
88
Tæt med Haiku
GPT-5-mini
83
Solid
Gemini 3.5 Flash
81
God, lidt mindre idiomatisk
Gemini 2.5 Flash
76
Brugbar men oversat-følelse
Resultater pr. opgave
Naturlighed (lyder det som dansker?)
Idiomatisk sprog, naturlig ordstilling, undgår oversat-følelse.
Grammatik og korrekthed
Komma-regler, æøå-håndtering, kongruens, sammensatte ord.
Kulturelt match (forretnings-dansk)
Tone-of-voice, formalitetsniveau, danske idiomer i kontekst.
Kompletthed (løser den opgaven?)
Bliver alle dele af prompten besvaret, eller springer modellen ting over?
Vores konklusion
Claude-familien er konsekvent stærkest på dansk, særligt på naturlighed og kulturelt match. Forskellen er størst på kreative/marketing-tekster hvor sproget skal "swinge". For ren faktuel kundeservice er forskellen markant mindre — alle modeller leverer brugbart dansk her. Vores anbefaling: brug Gemini Flash til høj-volumen chat (billigere), eskalér til Claude Haiku eller Sonnet for marketing-tekst og kundekommunikation hvor sproget skal være polished. PRELIMINÆRE TAL — opdateres med målte resultater når vi har kørt scripts/benchmarks/run-danish.ts mod alle 3 providers.
Kilder & metode-noter
- ScandEval leaderboard: https://scandeval.com (offentlig dansk/nordisk NLU benchmark)
- Vores erfaring fra produktionsbrug af alle 3 model-familier i danske virksomheder 2024-2026
- Community-feedback fra danske udviklere på r/LocalLLaMA og danske dev-fora
- Disse er PRELIMINÆRE ESTIMATER, ikke målte tal. Kør scripts/benchmarks/run-danish.ts for at verificere selv.
Kør benchmark selv
Vil du verificere disse tal mod dine egne API-nøgler? Vi har offentliggjort runner-scriptet i Moselstudio-kodebasen:
# Sæt API-nøgler først export ANTHROPIC_API_KEY=sk-ant-... export OPENAI_API_KEY=sk-... export GEMINI_API_KEY=AIz... # Kør npx tsx scripts/benchmarks/run-danish.ts
Scriptet kører alle modeller og scorer outputtet. Forbrug pr. fuld kørsel: typisk 30-50 kr i API-omkostninger per provider. Brug --limit 5 (sprog) eller --iterations 10 (json) for hurtig sanity-check.