OpenAI lancerer LifeSciBench — selv bedste model klarer kun 36% af opgaverne
Vores analyse
OpenAI har sammen med 173 forskere fra biotek og medicinalindustri lanceret LifeSciBench — et benchmark med 750 ekspert-skrevne opgaver fordelt på syv reelle forskningsworkflows som evidens-håndtering, analyse og videnskabelig formidling. Hver opgave bedømmes efter en detaljeret rubrik (i alt 19.020 kriterier, godt 25 pr. opgave), der måler både videnskabelig korrekthed og reel nytteværdi — ikke bare om svaret lyder rigtigt. Det interessante resultat: den stærkeste model består kun 36,1% af opgaverne. OpenAIs egen GPT-Rosalind topper, foran GPT-5.5, Grok 4.3 og Gemini 3.1 Pro.
Selv om benchmarket er rettet mod life science, er pointen bredere og vigtig for alle. For det første: i specialiserede ekspertdomæner er selv frontier-modeller stadig langt fra pålidelige — 36% er ikke et tal, man bygger kritiske beslutninger på uden et menneske i loopet. For det andet markerer det et skift fra generelle benchmarks mod fagspecifikke, opgave-nære tests. Skal man vurdere, om en AI-model faktisk dur til en konkret opgave, holder generelle topscorer ikke — man må teste på sit eget domæne.