Google lancerer Gemma 4 12B: Effektiv multimodal model til lokale servere
Vores analyse
Google DeepMind har lanceret Gemma 4 12B, en ny open-weights model på 12 milliarder parametre. Det særlige ved denne udgivelse er den såkaldte 'encoder-free' arkitektur. Hvor traditionelle multimodale modeller bruger separate moduler til at oversætte billeder og lyd før tekstbehandlingen, integrerer Gemma 4 alle datatyper direkte i én samlet model. Det reducerer latency og gør modellen væsentligt mere ressourceeffektiv.
For danske SMV'er og digitale bureauer er denne udvikling interessant, fordi modellen leverer stærk multimodal ydeevne i en størrelse, der kan afvikles på standard hardware eller billige cloud-instanser. Det åbner op for mere omkostningseffektiv automatisering af opgaver, der kræver forståelse af både dokumentlayout, billeder og lydfiler, uden at man behøver at sende følsomme data til eksterne API'er.