Benchmarks og evals

Benchmarks og evals er måden, man måler om en AI faktisk er god. Forstå hvordan AI-modeller testes - og hvorfor det også gælder din egen løsning.

Hvad er benchmarks og evals?

Et benchmark er en standardiseret test, der måler og sammenligner AI-modellers evner - fx hvor godt de koder, regner eller forstår sprog. Evals (evalueringer) er den bredere praksis at teste en AI's output systematisk på et defineret opgavesæt. Tilsammen er de svaret på spørgsmålet "er den her AI faktisk god til det, vi skal bruge den til?".

Hvorfor det betyder noget - også for dig

Når et nyt modelnavn topper et benchmark, er det værd at huske, at en god score i en test ikke altid betyder en god løsning på din opgave. Den vigtigste eval er ofte din egen: et sæt konkrete eksempler fra din virkelighed, du måler løsningen op imod.

Sådan bruger vi det i praksis

Når vi bygger en AI-funktion, laver vi et lille eval-sæt - rigtige spørgsmål med rigtige facit - og måler løsningen mod det, før den går live, og når vi ændrer noget. Det er forskellen på at tro, en AI virker, og at vide det. Uden evals bygger man i blinde.

Flere opslag i leksikonet

Se hele leksikonet →

Agentiske workflows AGI - Artificial General Intelligence AI safety og alignment AI-agenter AI-etik og bias AI-hallucination AI-kodeassistenter Chain-of-thought Claude (Anthropic)Computer vision Context engineering Context window Deep learning med kunstig intelligens DeepSeek

Relaterede ydelser

Skal det her omsættes til noget, der virker hos jer? Så er det typisk her, vi kommer ind.

AI i jeres software

AI-funktioner indbygget der hvor de skaber værdi.

Se løsningen

AI-rådgivning & enablement

Effektiv brug af AI - i hele virksomheden.

Se løsningen

Næste skridt

Fra begreb til løsning

Skal et af begreberne her omsættes til noget der rent faktisk virker i din virksomhed, så tag en uforpligtende snak med os.

Book et møde Se vores løsninger