← Tilbage til ordbogenTræning & fine-tuning

Distillation

Også kendt som: Knowledge distillation

At træne en lille, hurtig model til at imitere en stor, dygtig model.

Distillation er processen hvor man bruger en stor "lærer-model" til at træne en mindre "elev-model". Elev-modellen får ikke kun de rigtige svar, men også lærerens "soft outputs" — dens sandsynligheds-fordelinger over mulige svar — hvilket giver meget rigere træningssignal.

Resultatet er små modeller der performer overraskende tæt på de store, men kører 10-100× hurtigere og billigere. Claude Haiku, GPT-mini-varianter, og Gemini Flash er alle eksempler på distillerede modeller.

For virksomheder betyder det at man ofte kan bruge en lille model (lav cost, lav latency) til 80% af sine kald og kun eskalere til en stor model for de svære cases.

Distillation

Relaterede termer