Uno dei principali fattori che ha attirato l’attenzione su DeepSeek è il suo costo notevolmente inferiore rispetto ai modelli concorrenti. Tuttavia, la recente innovazione proveniente da ricercatori delle università di Stanford e Washington ha portato alla creazione di un nuovo modello di intelligenza artificiale, denominato s1, che offre prestazioni di ragionamento comparabili a quelle di o1 di OpenAI e ha un costo di sviluppo inferiore a 50 dollari.
Il modello s1, già disponibile su GitHub come open source, ha raggiunto questo costo contenuto grazie a un approccio innovativo. I ricercatori hanno scelto di non addestrare un modello di ragionamento da zero, ma hanno invece perfezionato un modello linguistico esistente attraverso una tecnica nota come distillazione. Questo processo ha comportato l’estrazione delle capacità di ragionamento dal modello Gemini 2.0 Flash Thinking Experimental di Google, addestrando il modello di base affinché potesse imitare il suo metodo di risoluzione dei problemi utilizzando set di dati ridotti.
Il processo di perfezionamento del modello ha richiesto appena 30 minuti e ha fatto uso di 16 GPU H100. Se noleggiate, queste GPU comportano una spesa di circa 50 dollari. I ricercatori hanno anche dotato il modello della capacità di verificare la correttezza dei propri ragionamenti prima di fornire una risposta, portando a risultati migliorati.
È cruciale notare che la creazione di questo modello non sarebbe stata possibile senza il supporto del modello preesistente. Tuttavia, questo approccio presenta anche alcuni limiti. Sebbene s1 possa apparire simile a o1 di OpenAI, rimane il dubbio se possa realmente eguagliare le prestazioni dei modelli di intelligenza artificiale più avanzati attualmente disponibili sul mercato. Inoltre, esiste la possibilità che Google possa sollevare obiezioni riguardo all’uso del suo modello per questi scopi.
Nonostante queste considerazioni, s1 potrebbe rappresentare un ulteriore passo avanti nel campo dell’intelligenza artificiale, dimostrando che è possibile sviluppare modelli efficaci anche con risorse limitate. La sua introduzione potrebbe quindi influenzare significativamente il panorama dell’IA e stimolare ulteriori innovazioni nel settore.