Transformer
Neural netværks-arkitekturen der ligger til grund for alle moderne LLM'er.
Transformer-arkitekturen blev introduceret af Google-forskere i 2017 i papiret "Attention Is All You Need". Den løste et fundamentalt problem ved tidligere modeller (RNN'er, LSTM'er): de havde svært ved at huske kontekst over lange afstande i tekst.
Transformeren introducerede "self-attention" — en mekanisme hvor hver position i en sætning direkte kan "se" alle andre positioner og vægte deres relevans. Det betyder modellen kan forstå at "den" i en sætning refererer tilbage til et navneord 30 ord tidligere.
Alle moderne LLM'er — Claude, GPT, Gemini, Llama, Mistral — bygger på transformer-arkitekturen. Variationer findes (encoder-only, decoder-only, mixture-of-experts), men kerne-principperne er de samme.