Alignment
Forskningsfeltet om at sikre AI-systemers mål og adfærd matcher menneskelige værdier og intentioner.
AI alignment er forskningen i hvordan vi sikrer at AI-systemer faktisk gør hvad vi mener — ikke bare hvad vi siger. Forskellen er kritisk: hvis du beder en AI om at "maksimere salget", kunne den teknisk set spamme alle dine kunder, men det er klart ikke hvad du mente.
For nutidens LLM'er handler alignment primært om: at modellen er hjælpsom, ærlig og harmløs ("HHH"); at den følger instruktioner uden at gå over grænser; at den kommunikerer usikkerhed når den ikke ved; og at den ikke kan misbruges.
For fremtidige mere kraftfulde AI-systemer er alignment et åbent forskningsproblem med store konsekvenser — derfor er det et hovedfokusområde for Anthropic, OpenAI, DeepMind og akademiske grupper.