◐ PRELIMINÆRT ESTIMATSidst opdateret: 2026-04-25

JSON-output pålidelighed: hvilken model returnerer korrekt JSON oftest?

Når LLM'er bruges i produktion er JSON-format-fejl en hovedårsag til crashes. Preliminære estimater baseret på BFCL leaderboard + vores produktionserfaring. Måle-data klar Q2 2026.

Metode

Tallene nedenfor er preliminære estimater baseret på: (1) Berkeley Function-Calling Leaderboard (BFCL) — den mest etablerede public benchmark for struktureret output, (2) vores egen erfaring med ~50.000 JSON-mode-kald i produktion 2025-2026 (Site Doctor, Estimator, Smart Search), (3) community-rapporter. Fulde måle-data Q2 2026 — kør gerne scripts/benchmarks/run-json.ts hvis du vil verificere selv (100+ iterationer pr. model med komplekst nested schema).

Samlet rangering

GPT-5

Mest pålidelig overall

Claude Sonnet 4.5

Næsten lige stærk

GPT-5-mini

Excellent for budget

Claude Haiku 4.5

Stærk

Gemini 3.5 Flash

God, lidt mere vrøvl

Gemini 2.5 Flash

OK, kræver mere retry-logik

Resultater pr. opgave

Valid JSON første gang (kan parses)

Procentdel af kald hvor JSON.parse() lykkes uden retry.

GPT-5

99%

GPT-5-mini

98%

Claude Sonnet 4.5

98%

Claude Haiku 4.5

96%

Gemini 3.5 Flash

95%

Gemini 2.5 Flash

92%

Schema-compliant (alle påkrævede felter, korrekte enums)

Procentdel hvor output følger schema præcist — required fields, enums, type-korrekthed.

GPT-5

96%

Claude Sonnet 4.5

94%

GPT-5-mini

92%

Claude Haiku 4.5

90%

Gemini 3.5 Flash

87%

Gemini 2.5 Flash

82%

Hallucinerede felter (lavere = bedre)

Procentdel hvor modellen tilføjer felter der IKKE er i schema. Invertet score — lavere er bedre.

GPT-5

<2% hallucination

GPT-5-mini

~5% hallucination

Claude Sonnet 4.5

~5% hallucination

Claude Haiku 4.5

~8% hallucination

Gemini 3.5 Flash

~12% hallucination

Gemini 2.5 Flash

~18% hallucination

Vores konklusion

GPT- og Claude-modellerne er topscorere på JSON-output, særligt i streng schema-compliance. Forskellen mellem dem er minimal (1-2 procentpoint). Gemini-modellerne er meget brugbare men kræver lidt mere defensive retry-logik i kode. Praktisk anbefaling: hvis JSON-pålidelighed er kritisk (fx produktions-API hvor schema-fejl crash backenden), brug Claude Haiku eller GPT-5-mini som default. For lavere-stakes JSON-output (intern brug, retry er OK) er Gemini Flash glimrende pga. prisen. Brug ALTID `responseMimeType: "application/json"` (Gemini) eller `response_format: { type: "json_object" }` (OpenAI) eller en-kort eksplicit instruktion (Claude). PRELIMINÆRE TAL — opdateres med målte resultater Q2 2026.

Kilder & metode-noter

Berkeley Function-Calling Leaderboard (BFCL): https://gorilla.cs.berkeley.edu/leaderboard.html
Vores produktionserfaring: ~50.000 JSON-mode-kald via Site Doctor, Estimator, Smart Search 2025-2026
OpenAI documentation om structured outputs: https://platform.openai.com/docs/guides/structured-outputs
Anthropic documentation om JSON outputs: https://docs.anthropic.com/claude/docs/json-mode
Disse er PRELIMINÆRE ESTIMATER, ikke målte tal. Kør scripts/benchmarks/run-json.ts for at verificere selv.

Kør benchmark selv

Vil du verificere disse tal mod dine egne API-nøgler? Vi har offentliggjort runner-scriptet i Moselstudio-kodebasen:

# Sæt API-nøgler først
export ANTHROPIC_API_KEY=sk-ant-...
export OPENAI_API_KEY=sk-...
export GEMINI_API_KEY=AIz...

# Kør
npx tsx scripts/benchmarks/run-json.ts

Scriptet kører alle modeller og scorer outputtet. Forbrug pr. fuld kørsel: typisk 30-50 kr i API-omkostninger per provider. Brug --limit 5 (sprog) eller --iterations 10 (json) for hurtig sanity-check.