Meta ha recentemente lanciato Llama 4, una nuova serie di modelli linguistici multimodali caratterizzati da pesi aperti. Questi modelli introducono un’architettura innovativa chiamata Mixture-of-Experts , che promette di migliorare le prestazioni delle intelligenze artificiali sviluppate dall’azienda. I tre modelli presentati sono Scout, Maverick e Behemoth, con i primi due già disponibili su piattaforme come llama.com e Hugging Face. Behemoth, il modello più grande della serie, è ancora in fase di addestramento.
La novità dell’architettura Mixture-of-Experts
La principale innovazione introdotta da Llama 4 è l’adozione dell’architettura MoE, un approccio già noto nel campo del deep learning. Questa architettura consente a ogni token di attivare solo una parte dei parametri disponibili nel modello, riducendo significativamente i costi durante la fase di inferenza rispetto ai tradizionali modelli densi. In un modello tradizionale, ogni token attiva tutti i parametri del sistema; al contrario, nell’architettura MoE solo alcuni esperti specializzati vengono coinvolti per gestire compiti specifici.
Ad esempio, Maverick dispone di ben 400 miliardi di parametri totali ma ne attiva solamente 17 miliardi per ciascun token attraverso l’utilizzo di 128 esperti e un modulo condiviso. Questo approccio non solo migliora le prestazioni generali ma riduce anche i tempi necessari per fornire risposte agli utenti. Inoltre, Maverick offre una finestra contestuale impressionante da 1 milione di token ed è progettato per funzionare su una singola GPU H100 se opportunamente quantizzato a 4 bit.
Anche il modello Scout si basa sullo stesso principio: pur avendo meno parametri , riesce ad attivare gli stessi 17 miliardi per ogni token e vanta una finestra contestuale straordinaria fino a 10 milioni di token. Questa capacità lo rende particolarmente utile nell’elaborazione massiva dei dati testuali.
Innovazioni nella gestione della memoria e supporto multilingue
Un altro aspetto significativo dei nuovi modelli Llama 4 riguarda l’introduzione della nuova architettura d’attenzione chiamata iRoPE . Questa tecnologia permette al modello di scalare senza dover ricorrere a posizioni assolute nei dati elaborati; ciò significa che la finestra contestuale può essere estesa in modo quasi illimitato.
Tutti i modelli della serie sono nativamente multimodali e supportano diverse lingue tra cui arabo, inglese, francese e italiano. Sono stati addestrati utilizzando enormi quantità sia testuali che visive – inclusi testi scritti insieme a immagini e video – permettendo così loro capacità avanzate in ambiti come image grounding , ragionamento visivo ed elaborazione temporale delle informazioni nelle immagini stesse.
Maverick si distingue come il modello intermedio ottimizzato per usi generali ed assistenza conversazionale; secondo benchmark recenti supera altri sistemi notabili come GPT-4 o Gemini 2.0 in vari ambiti quali codice informatico o ragionamento logico applicato alle immagini.
Le potenzialità del modello Behemoth
Behemoth rappresenta il culmine delle capacità offerte dalla famiglia Llama con ben 288 miliardi di parametri attivi su quasi duemila miliardi totali disponibili nel sistema complessivo. Questo imponente volume ha già dimostrato performance superiori rispetto al noto GPT-4.5 in settori STEM quali matematica avanzata o fisica teorica.
Lama sarà integrato nelle applicazioni quotidiane offerte da Meta come WhatsApp, Messenger ed Instagram; tuttavia, la disponibilità iniziale sarà limitata a soli quaranta paesi mentre le funzioni multimodali saranno accessibili esclusivamente negli Stati Uniti nella lingua inglese fino ad ulteriori sviluppi futuri.