Benchmark18. juni 2026

OpenAI lancerer LifeSciBench — selv bedste model klarer kun 36% af opgaverne

OpenAI's nye benchmark tester AI på 750 ægte life science-forskningsopgaver, bedømt af eksperter. Den bedste model består kun 36,1% — et nøgternt billede af AI's grænser.

Original kilde:OpenAI — Introducing LifeSciBench ↗Publiceret 17.6.2026

Vores analyse

OpenAI har sammen med 173 forskere fra biotek og medicinalindustri lanceret LifeSciBench — et benchmark med 750 ekspert-skrevne opgaver fordelt på syv reelle forskningsworkflows som evidens-håndtering, analyse og videnskabelig formidling. Hver opgave bedømmes efter en detaljeret rubrik (i alt 19.020 kriterier, godt 25 pr. opgave), der måler både videnskabelig korrekthed og reel nytteværdi — ikke bare om svaret lyder rigtigt. Det interessante resultat: den stærkeste model består kun 36,1% af opgaverne. OpenAIs egen GPT-Rosalind topper, foran GPT-5.5, Grok 4.3 og Gemini 3.1 Pro.

Selv om benchmarket er rettet mod life science, er pointen bredere og vigtig for alle. For det første: i specialiserede ekspertdomæner er selv frontier-modeller stadig langt fra pålidelige — 36% er ikke et tal, man bygger kritiske beslutninger på uden et menneske i loopet. For det andet markerer det et skift fra generelle benchmarks mod fagspecifikke, opgave-nære tests. Skal man vurdere, om en AI-model faktisk dur til en konkret opgave, holder generelle topscorer ikke — man må teste på sit eget domæne.

OpenAILifeSciBenchBenchmarkLife ScienceAI-pålidelighed

OpenAI lancerer LifeSciBench — selv bedste model klarer kun 36% af opgaverne

Vores analyse

Mere fra AI Feed

MCP bliver statsløst — standarden for AI-integrationer er modnet

EU udskyder højrisiko-kravene — men chatbot-pligten gælder fra 2. august

Hugging Face kræver fuld åbenhed efter det første autonome AI-angreb