● MÅLT DATASidst opdateret: 2026-04-20

Latency: hvor hurtigt svarer modellerne reelt?

Tid fra request sent til første token modtaget (TTFT) og total response-tid for moderne LLM-modeller. Målt på vores egen infrastruktur.

Metode

Vi sender 50 identiske prompts til hver model og måler både time-to-first-token (TTFT) og total response time. Prompten er en typisk 300-token chat-besked. Tests kørt fra EU-region (Frankfurt) for at simulere dansk produktions-trafik. Resultater er median over de 50 kald.

Samlet rangering

Gemini 2.5 Flash

Hurtigst overall

Claude Haiku 4.5

Næsten lige hurtig

GPT-5-mini

Hurtig

Gemini 3.5 Flash

Hurtig (thinking off)

Claude Sonnet 4.5

Medium

GPT-5

Langsom

Resultater pr. opgave

Time-to-first-token (median)

Tid fra request sent til første tegn modtaget — det brugeren ser.

Gemini 2.5 Flash

280ms

Claude Haiku 4.5

320ms

GPT-5-mini

380ms

Gemini 3.5 Flash

420ms

Claude Sonnet 4.5

680ms

GPT-5

850ms

Total response (300 output tokens)

Total tid for et standard 300-token svar.

Gemini 2.5 Flash

0.9s

Claude Haiku 4.5

1.2s

GPT-5-mini

1.6s

Gemini 3.5 Flash

1.8s

Claude Sonnet 4.5

2.8s

GPT-5

3.9s

Long context-respons (10K input, 500 output)

Tid når modellen skal læse meget før den svarer.

Gemini 2.5 Flash

1.4s

Gemini 3.5 Flash

2.0s

Claude Haiku 4.5

2.4s

GPT-5-mini

2.9s

Claude Sonnet 4.5

4.5s

GPT-5

6.5s

Vores konklusion

For real-time use cases (chatbot, voice assistant, command palette) er Gemini 2.5 Flash og Claude Haiku tæt på lige hurtige og 3-5× hurtigere end de største modeller. For dybe analyse-opgaver hvor brugeren venter på et godt svar, er den ekstra latency hos Sonnet/GPT-5 ofte værd at bære for kvaliteten. Gemini 3.5 Flash kan være hurtig hvis thinking-tokens er sat til 0.

Kilder & metode-noter

Egen måling via API-kald fra EU-region (Frankfurt) april 2026
Tests udført med standard SDK'er uden custom optimering
Resultater medregner network roundtrip