vLLM

vLLM er en motor til at køre AI-modeller i produktion med høj kapacitet. Forstå værktøjet, man bruger, når mange skal bruge den samme model samtidig.

Hvad er vLLM?

vLLM er en motor til at køre sprogmodeller i produktion - bygget til at betjene mange brugere samtidig med høj kapacitet. Hvor Ollama er lavet til at komme nemt i gang på én maskine, er vLLM lavet til den seriøse drift, hvor en model skal kunne svare på rigtig mange forespørgsler effektivt.

Hvad det er godt til

vLLM skinner, når en selvhostet model skal i produktion bag en løsning med mange brugere - en intern assistent for hele virksomheden, en kundevendt funktion eller batch-kørsel af store mængder. Det er optimeret til at få mest muligt ud af det dyre grafikkort, så samme hardware kan betjene flere.

Hvor det hører til

vLLM er ikke værktøjet, man starter med, men det, man flytter over til, når en lokal model skal være driftssikker og skalere. Det er et godt eksempel på, at lokal AI ikke er ét værktøj, men en kæde: llama.cpp og Ollama til at komme i gang og afprøve - vLLM eller lignende, når det skal holde i produktion.

Flere opslag i leksikonet

Se hele leksikonet →

Agentiske workflows AGI - Artificial General Intelligence AI safety og alignment AI-agenter AI-etik og bias AI-hallucination AI-kodeassistenter Benchmarks og evals Chain-of-thought Claude (Anthropic)Computer vision Context engineering Context window Deep learning med kunstig intelligens

Relaterede ydelser

Skal det her omsættes til noget, der virker hos jer? Så er det typisk her, vi kommer ind.

AI i jeres software

AI-funktioner indbygget der hvor de skaber værdi.

Se løsningen

AI-rådgivning & enablement

Effektiv brug af AI - i hele virksomheden.

Se løsningen

Næste skridt

Fra begreb til løsning

Skal et af begreberne her omsættes til noget der rent faktisk virker i din virksomhed, så tag en uforpligtende snak med os.

Book et møde Se vores løsninger