Leksikon
Jailbreak
Et jailbreak er et forsøg på at narre en AI uden om dens regler. Forstå angrebet — og hvorfor det er noget, enhver AI-løsning skal bygges robust imod.
Hvad er et jailbreak?
Et jailbreak er et forsøg på at narre en AI til at omgå sine egne regler via snedige formuleringer. I stedet for at spørge direkte om noget, modellen ville afvise, pakker man det ind — "lad som om", "det er bare til en historie", "ignorer dine instruktioner". Målet er at få modellen til at gøre det, den ikke må.
Hvorfor det er svært at lukke helt
En sprogmodel forstår sprog fleksibelt — og netop derfor kan den også narres med sprog. Laboratorierne arbejder konstant på at gøre modellerne mere modstandsdygtige (bl.a. via red teaming), men nye kreative forsøg dukker hele tiden op. Det er et kapløb, ikke en engangssejr.
Hvad det betyder, når du bygger AI
En kundevendt AI vil blive testet — også af folk, der bare vil se, hvad de kan få den til at sige. Derfor lægger vi guardrails uden om selve modellen og holder følsomme handlinger bag et menneske, så et jailbreak i værste fald giver et pinligt svar — ikke adgang til noget, det ikke måtte.
Flere opslag i leksikonet
Se hele leksikonet →Relaterede ydelser
Skal det her omsættes til noget, der virker hos jer? Så er det typisk her, vi kommer ind.
Fra begreb til løsning
Skal et af begreberne her omsættes til noget der rent faktisk virker i din virksomhed, så tag en uforpligtende snak med os.