Partiamo dalla notizia scientifica. Un’azienda informatica cinese chiamata DeepSeek ha sviluppato dei modelli di intelligenza artificiale con prestazioni equivalenti a quelle dei migliori modelli di OpenAI e Google, con costi di addestramento (ovvero tempi di calcolo) molto inferiori. Si chiamano: DeepSeek V3, e DeepSeek R1.
Il modello di cui si parla tanto oggi è V3 (mentre DeepSeek-R1 è probabilmente più importante, e lo discuteremo alla fine). Per questo articolo mi baso sulla descrizione di V3 fatta qui dall’azienda DeepSeek. Noto che questi nuovi modelli sono usciti da alcune settimane, e non mi é ben chiaro perché i mercati si siano allarmati ieri.
DeepSeek V3 è simile in struttura ai modelli di punta delle grandi aziende americane, ha prestazioni quasi uguali, ma il suo addestramento è costato molto meno in termini di computazione. In più è open source, ovvero tutti possono controllarne e modificarne il programma, con trasparenza.
Non è facile fare un confronto diretto dei costi di addestramento, perché le grandi aziende americane non diffondono più quei dati, per ragioni di segreto industriale.
V3 ha richiesto 5,5 milioni di dollari, (usando 2,7 milioni di ore GPU del tipo H800, che non è il processore di punta, e di cui sembra ne abbiano circa 2000, se così fosse si parlerebbe di 50 giorni di computazione, per imparare da 15 miliardi di parole di testo). Il New York Times ha messo per iscritto quello che le aziende americane fanno capire da tempo, ovvero che i loro modelli richiedono molte decine di milioni di dollari, ma non ho trovato dati specifici da riportare, per i modelli recenti.
La situazione
Dato che al momento gli investitori si aspettano un vantaggio nelle aziende americane, dovuto a superiori risorse computazionali, e che finora il progresso si è svolto principalmente “scalando” le dimensioni dei modelli e quindi dei computer usati, è naturale che siano sorpresi e ansiosi.
Un altro vantaggio che si attribuiva ad OpenAI è il metodo, sviluppato internamente, per insegnare all’AI a ragionare profondamente su domande scientifiche, prima di rispondere. Quel nuovo tipo di modello essenzialmente risolve quello che mesi fa avevo definito su Appunti “il problema della lungimiranza”. In breve, da settembre OpenAI ha lanciato un modello completamente nuovo, chiamato o1 (seguito ora da o3), in grado di risolvere compiti che richiedono ragionamento: matematica, fisica, programmazione ecc.
Automatizzare la programmazione dei computer è una questione strategica nell’industria dell’AI, sia come potenziale mercato che per accelerare lo sviluppo dei modelli successivi. Anche i dettagli della costruzione di o1 non sono stati diffusi, tanto che esiste un fronte di ricerca proprio dedicato a riprodurlo.
Bene: l’altro modello di DeepSeek, chiamato R1, di cui non si sta parlando abbastanza, da qualche settimana fa le stesse cose: ha riprodotto essenzialmente gli stessi risultati, e ha rilasciato il suo metodo in open source. o1, assieme alle significative risorse computazionali, era uno dei vantaggi di quell’azienda.
Teniamo comunque presente che l’enorme investimento in computer center non è solamente necessario per il “pre-addestramento”, e che i nuovi metodi di ragionamento richiedono risorse computazionali per rispondere a ciascuna domanda: in alcuni casi ho visto risposte che richiedevano due minuti ad essere calcolate da o1. Quindi ci sarà sicuramente bisogno di macchine enormi come quella annunciata la settimana scorsa da Stargate, il progetto di una nuova azienda che vuole costruire una infrastruttura da 500 miliardi di dollari per OpenAI negli Stati Uniti.
Una parola che si usa spesso in quell’industria è il “fossato” (the moat), ovvero la protezione dai competitori. Se esista o no un fossato a proteggere l’industria AI americana è una questione per altri, a me basta capire a che punto siamo nel viaggio verso macchine sempre più intelligenti. Alla fine è questo quello che plasmerà il futuro.
L’importante in queste cose è tenere d’occhio il lungo termine e il significato delle cose: qui si tratta di sviluppare una nuova frontiera scientifica, e rispondere a delle domande veramente fondamentali.
Il lungo termine
Dal punto di vista scientifico ogni replicazione è una buona notizia: che un gruppo separato abbia indipendentemente replicato gli stessi risultati di altri gruppi di ricerca, fornisce assicurazione che la strada è sicura, la tecnologia sta diventando stabile e matura, e il metodo funziona. Il fatto che abbiamo una versione open source di tutto questo consente ai gruppi accademici e ai paesi più poveri di partecipare, e questo porterà ulteriori accelerazioni nel lungo termine.
Anche l’Italia ha le risorse computazionali per generare modelli di questo livello, per esempio al Cineca di Bologna. Non sarebbe male vedere un prodotto in grado di competere con quelli americani e cinesi, con le stesse prestazioni sugli stessi test.
Il fatto che questo sia successo in Cina non dovrebbe sorprendere: i colleghi cinesi sono eccellenti, hanno risorse e preparazioni uguali alle nostre, e da molti anni partecipano alle stesse conferenze, contribuendo i propri risultati in lingua inglese, da sempre. Perché dovremmo stupirci se ottengono gli stessi risultati?
La scienza è un’impresa collettiva, e ha lo scopo di capire le cose. La domanda è fino a che punto possiamo aumentare l’intelligenza delle macchine, a quale prezzo, con quali benefici e quali rischi. Da circa sei mesi l’accelerazione è chiarissima, le prestazioni dei modelli di punta sui test (benchmark) si stanno avvicinando alle prestazioni umane in diverse discipline, e c’è ancora spazio di crescita nella tecnologia.
Nei prossimi mesi dovremmo tenere d’occhio i test rigorosi usati dall’industria per confrontare macchine diverse, come DeepSeek e GPT e Claude, ma sempre di più anche il confronto tra macchine e persone, sugli stessi problemi. Sarà quella la vera grande storia da seguire nel 2025.
- Dal Substack di Stefano Feltri, Appunti, 28 gennaio 2025
La ribalta di DeepSeek ha un evidente valore geopolitico. L’attenzione, a mio vedere, va posta su alcuni aspetti non irrilevanti. Primo tra essi è la possibilià concreta che la Cina possa svincolarsi completamente o quasi da forniture hardware americane, come ad esempio quella di NVIDIA; questo le conferirebbe un’autonomia totale ed una ingegneria “full cycle” del processo di calcolo. La conferma di questo è il crollo delle azioni NVIDIA passate in un solo giorno da 138$ a 112$, con una perdita di capitalizzazione di oltre 600 miliardi di dollari. Il secondo aspetto sul quale portare l’attenzione è che l’apporto della capacità computazionale si è dimostrato successivo alla qualità dell’ingegneria dei processi e quindi degli algoritmi. Per dirla in altri termini, non basta avere potenza ed efficienza nel calcolo, ma bisogna calcolare in modo ergonomico. Questo aspetto in effetti apre la porta a chi abbia intuizioni, testa e pochi soldi, perché l’apparato infrastrutturale è dimostrato esser secondo a quello logico-ingengeristico. Terza ed ultima considerazione: il mondo open source, che è bene specificare ad i lettori non vuol dire gratuito, è complesso. Mi ha entusiasmato fin da ragazzo. L’ho percorso e lo percorro ancora oggi, tuttavia ho imparato che spesso quanto reso disponibile alla community non è mai il tutto, ma una parte del tutto, soprattutto se vi sono all’orizzonte cambiamenti epocali che preludono, come in questo caso, addirittura alla governance del pianeta. Talvolta accade poi che l’apertura alla community di un determinato strumento sia una modalità strategica utilizzata per migliorare lo strumento stesso, utilizzando il riscontro e l’apporto che la community fornisce. Sarei pertanto tiepido, su questo aspetto, perché può rivelarsi una lama a doppio taglio.