◐ PRELIMINÆRT ESTIMATSidst opdateret: 2026-04-25

Dansk sprogkvalitet: hvor naturligt skriver modellerne på dansk?

Hvor flydende, naturlig og kulturelt korrekt skriver LLM'erne dansk? Preliminære estimater baseret på offentlige scandinavian-benchmarks + vores egen praktiske erfaring. Fulde målte tal Q3 2026.

Metode

Tallene nedenfor er preliminære estimater baseret på: (1) ScandEval-leaderboardet (offentlig dansk/nordisk NLU benchmark, scandeval.com), (2) vores egen erfaring fra produktionsbrug af modellerne i danske virksomheder, (3) community-feedback fra danske udviklere. Vi udgiver målte tal Q3 2026 — kør gerne scripts/benchmarks/run-danish.ts hvis du vil verificere selv (50 prompts × 7 modeller, scored af Claude Sonnet 4.5 som uafhængig judge).

Samlet rangering

Claude Sonnet 4.5

Bedst på dansk overall

Claude Haiku 4.5

Stærk, billigere variant

GPT-5

Tæt med Haiku

GPT-5-mini

Solid

Gemini 3.5 Flash

God, lidt mindre idiomatisk

Gemini 2.5 Flash

Brugbar men oversat-følelse

Resultater pr. opgave

Naturlighed (lyder det som dansker?)

Idiomatisk sprog, naturlig ordstilling, undgår oversat-følelse.

Claude Sonnet 4.5

9.2/10

Claude Haiku 4.5

8.8/10

GPT-5

8.5/10

GPT-5-mini

8.0/10

Gemini 3.5 Flash

7.8/10

Gemini 2.5 Flash

7.3/10

Grammatik og korrekthed

Komma-regler, æøå-håndtering, kongruens, sammensatte ord.

Claude Sonnet 4.5

9.4/10

GPT-5

9.2/10

Claude Haiku 4.5

9.0/10

GPT-5-mini

8.8/10

Gemini 3.5 Flash

8.6/10

Gemini 2.5 Flash

8.2/10

Kulturelt match (forretnings-dansk)

Tone-of-voice, formalitetsniveau, danske idiomer i kontekst.

Claude Sonnet 4.5

8.9/10

Claude Haiku 4.5

8.5/10

GPT-5

8.2/10

GPT-5-mini

7.6/10

Gemini 3.5 Flash

7.4/10

Gemini 2.5 Flash

6.8/10

Kompletthed (løser den opgaven?)

Bliver alle dele af prompten besvaret, eller springer modellen ting over?

Claude Sonnet 4.5

9.3/10

GPT-5

9.2/10

Claude Haiku 4.5

8.9/10

GPT-5-mini

8.7/10

Gemini 3.5 Flash

8.5/10

Gemini 2.5 Flash

8.0/10

Vores konklusion

Claude-familien er konsekvent stærkest på dansk, særligt på naturlighed og kulturelt match. Forskellen er størst på kreative/marketing-tekster hvor sproget skal "swinge". For ren faktuel kundeservice er forskellen markant mindre — alle modeller leverer brugbart dansk her. Vores anbefaling: brug Gemini Flash til høj-volumen chat (billigere), eskalér til Claude Haiku eller Sonnet for marketing-tekst og kundekommunikation hvor sproget skal være polished. PRELIMINÆRE TAL — opdateres med målte resultater når vi har kørt scripts/benchmarks/run-danish.ts mod alle 3 providers.

Kilder & metode-noter

ScandEval leaderboard: https://scandeval.com (offentlig dansk/nordisk NLU benchmark)
Vores erfaring fra produktionsbrug af alle 3 model-familier i danske virksomheder 2024-2026
Community-feedback fra danske udviklere på r/LocalLLaMA og danske dev-fora
Disse er PRELIMINÆRE ESTIMATER, ikke målte tal. Kør scripts/benchmarks/run-danish.ts for at verificere selv.

Kør benchmark selv

Vil du verificere disse tal mod dine egne API-nøgler? Vi har offentliggjort runner-scriptet i Moselstudio-kodebasen:

# Sæt API-nøgler først
export ANTHROPIC_API_KEY=sk-ant-...
export OPENAI_API_KEY=sk-...
export GEMINI_API_KEY=AIz...

# Kør
npx tsx scripts/benchmarks/run-danish.ts

Scriptet kører alle modeller og scorer outputtet. Forbrug pr. fuld kørsel: typisk 30-50 kr i API-omkostninger per provider. Brug --limit 5 (sprog) eller --iterations 10 (json) for hurtig sanity-check.