Multimodal model
En model der kan håndtere flere typer input: tekst, billeder, lyd og video i samme model.
En multimodal model er ikke begrænset til tekst — den kan modtage og forstå billeder, lyd, video, eller kombinationer. Claude, GPT-4o, og Gemini er alle multimodale. Du kan sende et screenshot, en PDF, eller et lydoptag og få modellen til at analysere det.
Teknisk fungerer det ved at "embedde" alle modaliteter ind i samme vektor-rum, så modellen kan ræsonnere på tværs af dem. Et billede konverteres til en serie af "visual tokens" på samme måde som tekst bliver til text tokens.
For virksomheder åbner det en hav af anvendelser: kvittering-scanning, kvalitetskontrol på produkter, automatisk billedtekst-generering, lyd-transkription med analyse i ét kald.