Leksikon
Benchmarks og evals
Benchmarks og evals er måden, man måler om en AI faktisk er god. Forstå hvordan AI-modeller testes — og hvorfor det også gælder din egen løsning.
Hvad er benchmarks og evals?
Et benchmark er en standardiseret test, der måler og sammenligner AI-modellers evner — fx hvor godt de koder, regner eller forstår sprog. Evals (evalueringer) er den bredere praksis at teste en AI's output systematisk på et defineret opgavesæt. Tilsammen er de svaret på spørgsmålet "er den her AI faktisk god til det, vi skal bruge den til?".
Hvorfor det betyder noget — også for dig
Når et nyt modelnavn topper et benchmark, er det værd at huske, at en god score i en test ikke altid betyder en god løsning på din opgave. Den vigtigste eval er ofte din egen: et sæt konkrete eksempler fra din virkelighed, du måler løsningen op imod.
Sådan bruger vi det i praksis
Når vi bygger en AI-funktion, laver vi et lille eval-sæt — rigtige spørgsmål med rigtige facit — og måler løsningen mod det, før den går live, og når vi ændrer noget. Det er forskellen på at tro, en AI virker, og at vide det. Uden evals bygger man i blinde.
Flere opslag i leksikonet
Se hele leksikonet →Relaterede ydelser
Skal det her omsættes til noget, der virker hos jer? Så er det typisk her, vi kommer ind.
Fra begreb til løsning
Skal et af begreberne her omsættes til noget der rent faktisk virker i din virksomhed, så tag en uforpligtende snak med os.