Leksikon
Multimodal AI
Multimodal AI forstår både tekst, billeder og lyd på én gang. Se hvad det åbner for, når en løsning ikke kun kan læse — men også se og høre.
Hvad er multimodal AI?
De første sprogmodeller kunne kun tekst. Multimodal AI kan mere end én slags indhold ad gangen — tekst, billeder, lyd og nogle gange video. Du kan vise den et foto og spørge til det, give den en lydoptagelse og bede om et referat, eller blande tekst og billede i samme spørgsmål.
Hvad det åbner for
Det lyder abstrakt, men gør hverdagsting muligt:
- Tag et billede af en faktura, og få tallene trukket ud — beslægtet med computer vision, bare langt mere fleksibelt.
- Beskriv et produkt med ord og et foto, og lad modellen skrive teksten.
- Lad en kunde uploade et billede af problemet og få et svar med det samme.
Hvorfor det betyder noget
Det meste virkelige arbejde er ikke ren tekst. Det er en blanding af dokumenter, billeder, skærmbilleder og noter. En model, der kan tage det hele ind, kommer tættere på den måde, mennesker faktisk arbejder — og kan derfor løse opgaver, der før krævede flere separate værktøjer.
Multimodal er i dag standard i de største modeller, ikke en specialfunktion. For dig betyder det, at en løsning ikke længere skal nøjes med at læse tekst. Den kan også se og høre.
Flere opslag i leksikonet
Se hele leksikonet →Relaterede ydelser
Skal det her omsættes til noget, der virker hos jer? Så er det typisk her, vi kommer ind.
Fra begreb til løsning
Skal et af begreberne her omsættes til noget der rent faktisk virker i din virksomhed, så tag en uforpligtende snak med os.