Un nuovo concorrente di ChatGPT emerge, sviluppato con soli 50 dollari

La startup cinese DeepSeek rivoluziona l’intelligenza artificiale con modelli economici, mentre il modello S1 dimostra prestazioni elevate a costi contenuti, sfidando i giganti del settore.

La recente introduzione di DeepSeek ha segnato un cambiamento significativo nel panorama dell’intelligenza artificiale. Questo è stato reso possibile grazie alla straordinaria abilità del team di sviluppatori della startup cinese, che è riuscito ad addestrare i propri modelli linguistici con un investimento di soli 5 milioni di dollari. Questa somma è notevolmente inferiore rispetto ai costi di addestramento di modelli come GPT-4, che richiedono circa 100 milioni di dollari, e rappresenta una frazione irrisoria rispetto alle previsioni di spesa che, secondo Dario Amodei, CEO di Anthropic, potrebbero raggiungere un miliardo di dollari entro il 2027.

La startup ha così dimostrato che è possibile sviluppare sistemi di intelligenza artificiale generativa competitivi con quelli di OpenAI, senza disporre delle ingenti risorse delle grandi aziende tecnologiche. La reazione della Silicon Valley è stata di preoccupazione, con Amodei che ha sollecitato ulteriori restrizioni sull’accesso delle aziende cinesi ai chip statunitensi. Anche OpenAI ha accusato DeepSeek di aver utilizzato in modo improprio i propri modelli per la creazione dei sistemi R1 e V3.

Il modello S1 e il suo sviluppo economico

Recentemente, un gruppo di ricercatori delle università di Stanford e Washington ha fatto notizia per aver sviluppato un modello linguistico di grandi dimensioni, chiamato S1, spendendo solo 50 dollari per il noleggio delle risorse computazionali necessarie. Questo modello, disponibile in open source su GitHub, è stato addestrato in appena 26 minuti grazie a una tecnica innovativa nota come “distillazione”. Questa metodologia consente ai modelli più piccoli di apprendere dalle versioni più grandi e già esistenti.

Per l’addestramento di S1, i ricercatori hanno fatto uso delle risposte del modello Gemini 2.0 Flash Thinking Experimental di Google, nonostante i termini di servizio di quest’ultimo vietino l’uso per la creazione di sistemi concorrenti. Inoltre, S1 si basa sul sistema Qwen 2.5 di Alibaba, un’intelligenza artificiale open source, il che rende il suo sviluppo accessibile a chiunque. L’addestramento ha richiesto solo 16 GPU H100 di Nvidia, in netto contrasto con le decine di migliaia necessarie per i modelli più complessi.

Nel documento di ricerca presentato dai ricercatori, si afferma che S1 ha raggiunto prestazioni in alcuni benchmark di matematica e programmazione comparabili a quelle di OpenAI e DeepSeek. Anche S1 utilizza il sistema chain-of-thought per generare risposte in modo logico e strutturato.

Il ragionamento economico dei modelli

I modelli che adottano un approccio di ragionamento si sono dimostrati non solo più performanti, ma anche più economici. Come spiegato da Alvin Graylin, imprenditore del settore tecnologico, il calcolo per l’inferenza avviene durante l’uso dei modelli, piuttosto che in fase di addestramento, riducendo così la necessità di chip avanzati.

La tecnica della distillazione consente di trasferire la conoscenza da un modello linguistico di grandi dimensioni a uno più piccolo, mantenendo prestazioni simili con costi più contenuti. Il modello più piccolo, in questo caso S1, viene addestrato con le risposte del modello più grande, permettendogli di apprendere schemi complessi in modo più rapido. I ricercatori hanno creato un dataset di mille domande e risposte, riproducendo il processo di ragionamento del modello Gemini 2.0.

Ci si potrebbe chiedere se sia possibile per chiunque, con un investimento modesto, sviluppare un modello linguistico avanzato. La risposta è parzialmente affermativa. Sebbene la distillazione permetta di replicare le capacità di modelli esistenti, per creare intelligenze artificiali più sofisticate sono comunque necessarie risorse considerevoli, tipiche solo dei leader del settore. Gli Stati Uniti, ad esempio, stanno pianificando di investire 500 miliardi di dollari nella loro infrastruttura cloud attraverso il progetto Stargate, un passo cruciale per mantenere la propria posizione di leader globale nel campo dell’intelligenza artificiale.

Change privacy settings
×