JSON-output pålidelighed: hvilken model returnerer korrekt JSON oftest?
Metode
Tallene nedenfor er preliminære estimater baseret på: (1) Berkeley Function-Calling Leaderboard (BFCL) — den mest etablerede public benchmark for struktureret output, (2) vores egen erfaring med ~50.000 JSON-mode-kald i produktion 2025-2026 (Site Doctor, Estimator, Smart Search), (3) community-rapporter. Fulde måle-data Q2 2026 — kør gerne scripts/benchmarks/run-json.ts hvis du vil verificere selv (100+ iterationer pr. model med komplekst nested schema).
Samlet rangering
GPT-5
97
Mest pålidelig overall
Claude Sonnet 4.5
96
Næsten lige stærk
GPT-5-mini
95
Excellent for budget
Claude Haiku 4.5
93
Stærk
Gemini 3.5 Flash
90
God, lidt mere vrøvl
Gemini 2.5 Flash
85
OK, kræver mere retry-logik
Resultater pr. opgave
Valid JSON første gang (kan parses)
Procentdel af kald hvor JSON.parse() lykkes uden retry.
Schema-compliant (alle påkrævede felter, korrekte enums)
Procentdel hvor output følger schema præcist — required fields, enums, type-korrekthed.
Hallucinerede felter (lavere = bedre)
Procentdel hvor modellen tilføjer felter der IKKE er i schema. Invertet score — lavere er bedre.
Vores konklusion
GPT- og Claude-modellerne er topscorere på JSON-output, særligt i streng schema-compliance. Forskellen mellem dem er minimal (1-2 procentpoint). Gemini-modellerne er meget brugbare men kræver lidt mere defensive retry-logik i kode. Praktisk anbefaling: hvis JSON-pålidelighed er kritisk (fx produktions-API hvor schema-fejl crash backenden), brug Claude Haiku eller GPT-5-mini som default. For lavere-stakes JSON-output (intern brug, retry er OK) er Gemini Flash glimrende pga. prisen. Brug ALTID `responseMimeType: "application/json"` (Gemini) eller `response_format: { type: "json_object" }` (OpenAI) eller en-kort eksplicit instruktion (Claude). PRELIMINÆRE TAL — opdateres med målte resultater Q2 2026.
Kilder & metode-noter
- Berkeley Function-Calling Leaderboard (BFCL): https://gorilla.cs.berkeley.edu/leaderboard.html
- Vores produktionserfaring: ~50.000 JSON-mode-kald via Site Doctor, Estimator, Smart Search 2025-2026
- OpenAI documentation om structured outputs: https://platform.openai.com/docs/guides/structured-outputs
- Anthropic documentation om JSON outputs: https://docs.anthropic.com/claude/docs/json-mode
- Disse er PRELIMINÆRE ESTIMATER, ikke målte tal. Kør scripts/benchmarks/run-json.ts for at verificere selv.
Kør benchmark selv
Vil du verificere disse tal mod dine egne API-nøgler? Vi har offentliggjort runner-scriptet i Moselstudio-kodebasen:
# Sæt API-nøgler først export ANTHROPIC_API_KEY=sk-ant-... export OPENAI_API_KEY=sk-... export GEMINI_API_KEY=AIz... # Kør npx tsx scripts/benchmarks/run-json.ts
Scriptet kører alle modeller og scorer outputtet. Forbrug pr. fuld kørsel: typisk 30-50 kr i API-omkostninger per provider. Brug --limit 5 (sprog) eller --iterations 10 (json) for hurtig sanity-check.