Moselstudio – AI Automation & SEO bureau
Lad os tale
← Alle benchmarks
◐ PRELIMINÆRT ESTIMATSidst opdateret: 2026-04-25

JSON-output pålidelighed: hvilken model returnerer korrekt JSON oftest?

Når LLM'er bruges i produktion er JSON-format-fejl en hovedårsag til crashes. Preliminære estimater baseret på BFCL leaderboard + vores produktionserfaring. Måle-data klar Q2 2026.

Metode

Tallene nedenfor er preliminære estimater baseret på: (1) Berkeley Function-Calling Leaderboard (BFCL) — den mest etablerede public benchmark for struktureret output, (2) vores egen erfaring med ~50.000 JSON-mode-kald i produktion 2025-2026 (Site Doctor, Estimator, Smart Search), (3) community-rapporter. Fulde måle-data Q2 2026 — kør gerne scripts/benchmarks/run-json.ts hvis du vil verificere selv (100+ iterationer pr. model med komplekst nested schema).

Samlet rangering

#1

GPT-5

97

Mest pålidelig overall

#2

Claude Sonnet 4.5

96

Næsten lige stærk

#3

GPT-5-mini

95

Excellent for budget

#4

Claude Haiku 4.5

93

Stærk

#5

Gemini 3.5 Flash

90

God, lidt mere vrøvl

#6

Gemini 2.5 Flash

85

OK, kræver mere retry-logik

Resultater pr. opgave

Valid JSON første gang (kan parses)

Procentdel af kald hvor JSON.parse() lykkes uden retry.

GPT-5
99%
GPT-5-mini
98%
Claude Sonnet 4.5
98%
Claude Haiku 4.5
96%
Gemini 3.5 Flash
95%
Gemini 2.5 Flash
92%

Schema-compliant (alle påkrævede felter, korrekte enums)

Procentdel hvor output følger schema præcist — required fields, enums, type-korrekthed.

GPT-5
96%
Claude Sonnet 4.5
94%
GPT-5-mini
92%
Claude Haiku 4.5
90%
Gemini 3.5 Flash
87%
Gemini 2.5 Flash
82%

Hallucinerede felter (lavere = bedre)

Procentdel hvor modellen tilføjer felter der IKKE er i schema. Invertet score — lavere er bedre.

GPT-5
<2% hallucination
GPT-5-mini
~5% hallucination
Claude Sonnet 4.5
~5% hallucination
Claude Haiku 4.5
~8% hallucination
Gemini 3.5 Flash
~12% hallucination
Gemini 2.5 Flash
~18% hallucination

Vores konklusion

GPT- og Claude-modellerne er topscorere på JSON-output, særligt i streng schema-compliance. Forskellen mellem dem er minimal (1-2 procentpoint). Gemini-modellerne er meget brugbare men kræver lidt mere defensive retry-logik i kode. Praktisk anbefaling: hvis JSON-pålidelighed er kritisk (fx produktions-API hvor schema-fejl crash backenden), brug Claude Haiku eller GPT-5-mini som default. For lavere-stakes JSON-output (intern brug, retry er OK) er Gemini Flash glimrende pga. prisen. Brug ALTID `responseMimeType: "application/json"` (Gemini) eller `response_format: { type: "json_object" }` (OpenAI) eller en-kort eksplicit instruktion (Claude). PRELIMINÆRE TAL — opdateres med målte resultater Q2 2026.

Kilder & metode-noter

  • Berkeley Function-Calling Leaderboard (BFCL): https://gorilla.cs.berkeley.edu/leaderboard.html
  • Vores produktionserfaring: ~50.000 JSON-mode-kald via Site Doctor, Estimator, Smart Search 2025-2026
  • OpenAI documentation om structured outputs: https://platform.openai.com/docs/guides/structured-outputs
  • Anthropic documentation om JSON outputs: https://docs.anthropic.com/claude/docs/json-mode
  • Disse er PRELIMINÆRE ESTIMATER, ikke målte tal. Kør scripts/benchmarks/run-json.ts for at verificere selv.

Kør benchmark selv

Vil du verificere disse tal mod dine egne API-nøgler? Vi har offentliggjort runner-scriptet i Moselstudio-kodebasen:

# Sæt API-nøgler først
export ANTHROPIC_API_KEY=sk-ant-...
export OPENAI_API_KEY=sk-...
export GEMINI_API_KEY=AIz...

# Kør
npx tsx scripts/benchmarks/run-json.ts

Scriptet kører alle modeller og scorer outputtet. Forbrug pr. fuld kørsel: typisk 30-50 kr i API-omkostninger per provider. Brug --limit 5 (sprog) eller --iterations 10 (json) for hurtig sanity-check.

Book en uforpligtende snak