← Tilbage til ordbogenModeller & arkitektur

Attention

Også kendt som: Self-attention

Mekanismen der lader en model fokusere på forskellige dele af input når den genererer output.

Attention er hjertet i transformer-arkitekturen. Forestil dig at modellen læser en sætning og skal forstå et tvetydigt ord. Attention lader modellen "kigge tilbage" på alle de tidligere ord og vægte hvilke der er mest relevante for at forstå det nuværende ord.

Matematisk består attention af tre vektorer for hvert input-token: query, key og value. Modellen beregner hvor godt hver query passer til hver key, og bruger det til at vægte hvilke values den skal bruge til at generere output.

I praksis betyder det at en LLM kan håndtere kompleks tekst med referencer, dobbelte betydninger og lange afhængigheder — fordi den ikke bare læser sekventielt, men ser hele konteksten på én gang.

Attention

Relaterede termer