← Tilbage til ordbogenModeller & arkitektur

Mixture of Experts (MoE)

Også kendt som: MoE

En arkitektur hvor modellen består af mange specialiserede "eksperter" og kun aktiverer relevante for hver opgave.

I en traditionel "dense" model bruges alle parametre på hvert kald. I en Mixture-of-Experts (MoE) er modellen opdelt i mange specialiserede sub-netværk ("eksperter"), og en gating-mekanisme bestemmer hvilke 1-2 eksperter der skal aktiveres pr. token.

Resultatet er at modellen kan have meget store samlede parameter-tal, men kun en lille brøkdel aktiveres ved hver forespørgsel. Det giver bedre kvalitet til samme inference-omkostning.

GPT-4, Mistral Mixtral og flere moderne modeller bruger MoE-arkitektur. Det er en af de vigtigste innovationer for at skalere modeller uden eksploderende compute-omkostninger.

Mixture of Experts (MoE)

Relaterede termer