RLHF (Reinforcement Learning from Human Feedback)
Træningsteknik hvor menneskelig feedback bruges til at gøre modellen mere hjælpsom, ærlig og harmløs.
RLHF er den teknik der gjorde ChatGPT brugbar i 2022 (og som alle siden har kopieret). Processen: 1) Træn en base-model via pretraining. 2) Lad mennesker rangere modellens output på par-eksempler. 3) Træn en "reward model" der lærer hvad mennesker foretrækker. 4) Brug reinforcement learning til at finjustere base-modellen så den maksimerer reward-model-score.
Resultatet er en model der er meget bedre til at følge instruktioner, undgå skadeligt indhold, og opføre sig hjælpsomt. Det er det der gør forskellen mellem en rå GPT-3 og det ChatGPT du kan tale med.
Nyere alternativer (DPO, Constitutional AI) løser nogle af RLHF's problemer — særligt at det er dyrt og kompliceret. Men kerne-ideen er den samme: brug menneskelig præference til at forme modellens adfærd.