Vitruvian-1 rappresenta un significativo passo avanti nel campo dell’intelligenza artificiale, portando l’Italia in prima linea nell’innovazione tecnologica. Questo modello di linguaggio, sviluppato da ASC27, una società con sede a Roma, si distingue per la sua capacità di ragionamento a catena di pensiero (Chain of Thought reasoning). Grazie a un pre-addestramento continuo, fine-tuning supervisionato e apprendimento per rinforzo, Vitruvian-1 ha raggiunto punteggi impressionanti nei benchmark MATH (95,5%) e MMLU (90,2%), attestando l’efficacia della sua architettura. È importante notare che i punteggi sono preliminari e non ufficialmente divulgati per evitare possibili sovrastime delle capacità del modello.
Un aspetto distintivo di ASC27 è l’ottimizzazione delle risorse computazionali. Attraverso un processo di filtraggio dei dati basato su un classificatore di qualità e l’integrazione di un sistema di ricompensa noto come “cosine reward”, Vitruvian-1 riesce a mantenere elevate prestazioni riducendo al contempo il consumo energetico. Questo approccio è cruciale per garantire la sostenibilità a lungo termine degli LLM. La reward function incentiva risposte corrette e concise, penalizzando le generazioni di testo eccessivamente lunghe in caso di errore, e si integra con l’apprendimento per rinforzo, che bilancia la correttezza delle risposte con l’efficienza computazionale, migliorando così l’allocazione delle risorse senza compromettere la qualità.
Vitruvian-1 si basa su un corpus multilingua di 120 miliardi di token, costruito attraverso una selezione e filtraggio rigorosi. Il processo inizia con traduzioni di alta qualità provenienti da un subset del dataset FineWeb, ampliate con l’ausilio della piattaforma DeepL API. Non si è limitato a espandere il corpus, ma è stato implementato un sistema di filtraggio basato su un classificatore addestrato con Llama-3.2-1B. Questo strumento assegna punteggi ai documenti, includendo solo quelli con alta probabilità di essere esempi positivi nel corpus finale. Tale metodologia garantisce una qualità dei dati che alimenta l’intero ciclo di pre-addestramento, minimizzando le distorsioni e stabilizzando l’addestramento su larga scala.
Il successo di Vitruvian-1 nel ragionamento complesso deriva dall’uso combinato di distillazione delle catene di ragionamento e diversificazione delle domande. La distillazione avviene tramite il modello DeepSeek-R1, che genera più catene candidate per ogni domanda, sottoponendole a un rigoroso processo di verifica. Le risposte sono controllate da verificatori deterministici per problemi matematici e attraverso un giudizio modellato su un LLM esterno, che confronta le risposte generate con quelle attese. Questo processo inizia con la valutazione della difficoltà di ogni domanda, basata sulla lunghezza della catena di ragionamento richiesta e sulla complessità della risposta finale, misurata tramite la perplessità.
Il fine-tuning supervisionato di Vitruvian-1 non si limita a integrare nuovi dati, ma adotta una strategia mirata, stratificando gli esempi per livello di difficoltà. Questo approccio segue i principi del curriculum learning, dove il modello affronta progressivamente situazioni più complesse, evitando bruschi salti di difficoltà. La loss function per il fine-tuning supervisionato garantisce che il modello apprenda non solo a generare correttamente le catene di ragionamento, ma anche a prevedere risposte accurate sulla base del ragionamento accumulato.
Il modello Vitruvian-1 integra l’apprendimento per rinforzo tramite Proximal Policy Optimization (PPO). Questo approccio consente di affinare il comportamento del modello utilizzando una funzione di ricompensa composita, che bilancia la correttezza delle risposte con la loro efficienza computazionale. La funzione di ricompensa composita valuta e guida il processo decisionale del modello, premiando le risposte che sono corrette e ottimizzate in termini di risorse. Il PPO è applicato per ridurre l’errore tra la politica attuale del modello e quella ottimale, massimizzando il vantaggio stimato token per token e favorendo risposte sempre più efficienti.
I punteggi elevati nei benchmark rappresentano una solida base tecnica, ma Vitruvian-1 va oltre. ASC27 sta lavorando per ampliare le proprie capacità computazionali e prevede di sviluppare nuove versioni del modello con configurazioni scalabili. L’intento è di garantire che l’intero sistema di addestramento rimanga flessibile e sostenibile. Vitruvian-1 offre un’alternativa concreta per ridurre la dipendenza europea dalle soluzioni statunitensi e cinesi, puntando a diventare un punto di riferimento per l’IA generativa in Europa. Con una strategia chiara e il supporto del proprio ecosistema tecnologico, Vitruvian-1 ha il potenziale per affermarsi come un’alternativa sostenibile e indipendente nel panorama globale dell’intelligenza artificiale.