Latency: hvor hurtigt svarer modellerne reelt?
Metode
Vi sender 50 identiske prompts til hver model og måler både time-to-first-token (TTFT) og total response time. Prompten er en typisk 300-token chat-besked. Tests kørt fra EU-region (Frankfurt) for at simulere dansk produktions-trafik. Resultater er median over de 50 kald.
Samlet rangering
Gemini 2.5 Flash
93
Hurtigst overall
Claude Haiku 4.5
85
Næsten lige hurtig
GPT-5-mini
79
Hurtig
Gemini 3.5 Flash
78
Hurtig (thinking off)
Claude Sonnet 4.5
57
Medium
GPT-5
43
Langsom
Resultater pr. opgave
Time-to-first-token (median)
Tid fra request sent til første tegn modtaget — det brugeren ser.
Total response (300 output tokens)
Total tid for et standard 300-token svar.
Long context-respons (10K input, 500 output)
Tid når modellen skal læse meget før den svarer.
Vores konklusion
For real-time use cases (chatbot, voice assistant, command palette) er Gemini 2.5 Flash og Claude Haiku tæt på lige hurtige og 3-5× hurtigere end de største modeller. For dybe analyse-opgaver hvor brugeren venter på et godt svar, er den ekstra latency hos Sonnet/GPT-5 ofte værd at bære for kvaliteten. Gemini 3.5 Flash kan være hurtig hvis thinking-tokens er sat til 0.
Kilder & metode-noter
- Egen måling via API-kald fra EU-region (Frankfurt) april 2026
- Tests udført med standard SDK'er uden custom optimering
- Resultater medregner network roundtrip