Leksikon

Leksikon

Multimodal AI

Multimodal AI forstår både tekst, billeder og lyd på én gang. Se hvad det åbner for, når en løsning ikke kun kan læse — men også se og høre.

Hvad er multimodal AI?

De første sprogmodeller kunne kun tekst. Multimodal AI kan mere end én slags indhold ad gangen — tekst, billeder, lyd og nogle gange video. Du kan vise den et foto og spørge til det, give den en lydoptagelse og bede om et referat, eller blande tekst og billede i samme spørgsmål.

Hvad det åbner for

Det lyder abstrakt, men gør hverdagsting muligt:

  • Tag et billede af en faktura, og få tallene trukket ud — beslægtet med computer vision, bare langt mere fleksibelt.
  • Beskriv et produkt med ord og et foto, og lad modellen skrive teksten.
  • Lad en kunde uploade et billede af problemet og få et svar med det samme.

Hvorfor det betyder noget

Det meste virkelige arbejde er ikke ren tekst. Det er en blanding af dokumenter, billeder, skærmbilleder og noter. En model, der kan tage det hele ind, kommer tættere på den måde, mennesker faktisk arbejder — og kan derfor løse opgaver, der før krævede flere separate værktøjer.

Multimodal er i dag standard i de største modeller, ikke en specialfunktion. For dig betyder det, at en løsning ikke længere skal nøjes med at læse tekst. Den kan også se og høre.

Næste skridt

Fra begreb til løsning

Skal et af begreberne her omsættes til noget der rent faktisk virker i din virksomhed, så tag en uforpligtende snak med os.