RLHF - Reinforcement Learning from Human Feedback

RLHF er metoden, der gør en rå sprogmodel hjælpsom og høflig ved hjælp af menneskelig feedback. Forstå hvordan ChatGPT og Claude blev opdraget.

Hvad er RLHF?

RLHF - Reinforcement Learning from Human Feedback - er metoden, der gør en rå sprogmodel til en hjælpsom assistent. En model, der bare er trænet på tekst fra internettet, er klog men uregerlig. RLHF "opdrager" den ved at lade mennesker vurdere svar - og så lærer modellen at give flere af de svar, folk foretrækker.

Hvordan det virker - kort

Mennesker rangerer modellens svar (dette er bedre end dette), og den feedback bruges til at justere modellen via reinforcement learning. Gentaget mange gange former det modellens adfærd: mere hjælpsom, mere ærlig, mindre tilbøjelig til at sige noget skadeligt.

Hvorfor det betyder noget

RLHF er en stor del af, hvorfor ChatGPT og Claude føles brugbare frem for bare kloge. Det er også her, en models værdier og grænser sættes - og dermed et centralt emne i AI safety. For dig som bruger er det forklaringen på, at moderne AI faktisk gør, hvad man beder om, i en tone man kan bruge.

Flere opslag i leksikonet

Se hele leksikonet →

Agentiske workflows AGI - Artificial General Intelligence AI safety og alignment AI-agenter AI-etik og bias AI-hallucination AI-kodeassistenter Benchmarks og evals Chain-of-thought Claude (Anthropic)Computer vision Context engineering Context window Deep learning med kunstig intelligens

Relaterede ydelser

Skal det her omsættes til noget, der virker hos jer? Så er det typisk her, vi kommer ind.

AI i jeres software

AI-funktioner indbygget der hvor de skaber værdi.

Se løsningen

AI-rådgivning & enablement

Effektiv brug af AI - i hele virksomheden.

Se løsningen

Næste skridt

Fra begreb til løsning

Skal et af begreberne her omsættes til noget der rent faktisk virker i din virksomhed, så tag en uforpligtende snak med os.

Book et møde Se vores løsninger