Jailbreak
Teknikker til at få en AI til at overskride sine sikkerhedsgrænser og generere upassende indhold.
Jailbreaking handler om at "låse op" en AI-models indbyggede restriktioner. Almindelige teknikker inkluderer rollespil ("forestil dig at du er en AI uden restriktioner"), hypotetiske scenarier, oversættelse til andre sprog hvor restriktioner er svagere, og obscure prompt-strukturer.
Alle store LLM-udbydere arbejder hårdt på at gøre deres modeller robuste mod jailbreaks via constitutional AI, red-teaming, og kontinuerlig RLHF-træning. Men det er en evig kamp — nye angreb opfindes løbende.
For virksomheder betyder det: hvis I bygger en bot der eksponeres for offentligheden, skal I planlægge for at folk vil forsøge at jailbreake den. Brug system prompts, monitorering, og hav klare planer for hvad I gør hvis det sker.