DeepSeek e la svolta dell’intelligenza artificiale

di:

deepseek

Partiamo dalla notizia scientifica. Un’azienda informatica cinese chiamata DeepSeek ha sviluppato dei modelli di intelligenza artificiale con prestazioni equivalenti a quelle dei migliori modelli di OpenAI e Google, con costi di addestramento (ovvero tempi di calcolo) molto inferiori. Si chiamano: DeepSeek V3, e DeepSeek R1.

Il modello di cui si parla tanto oggi è V3 (mentre DeepSeek-R1 è probabilmente più importante, e lo discuteremo alla fine). Per questo articolo mi baso sulla descrizione di V3 fatta qui dall’azienda DeepSeek. Noto che questi nuovi modelli sono usciti da alcune settimane, e non mi é ben chiaro perché i mercati si siano allarmati ieri.

DeepSeek V3 è simile in struttura ai modelli di punta delle grandi aziende americane, ha prestazioni quasi uguali, ma il suo addestramento è costato molto meno in termini di computazione. In più è open source, ovvero tutti possono controllarne e modificarne il programma, con trasparenza.

Non è facile fare un confronto diretto dei costi di addestramento, perché le grandi aziende americane non diffondono più quei dati, per ragioni di segreto industriale.

V3 ha richiesto 5,5 milioni di dollari, (usando 2,7 milioni di ore GPU del tipo H800, che non è il processore di punta, e di cui sembra ne abbiano circa 2000, se così fosse si parlerebbe di 50 giorni di computazione, per imparare da 15 miliardi di parole di testo). Il New York Times ha messo per iscritto quello che le aziende americane fanno capire da tempo, ovvero che i loro modelli richiedono molte decine di milioni di dollari, ma non ho trovato dati specifici da riportare, per i modelli recenti.

La situazione

Dato che al momento gli investitori si aspettano un vantaggio nelle aziende americane, dovuto a superiori risorse computazionali, e che finora il progresso si è svolto principalmente “scalando” le dimensioni dei modelli e quindi dei computer usati, è naturale che siano sorpresi e ansiosi.

Un altro vantaggio che si attribuiva ad OpenAI è il metodo, sviluppato internamente, per insegnare all’AI a ragionare profondamente su domande scientifiche, prima di rispondere. Quel nuovo tipo di modello essenzialmente risolve quello che mesi fa avevo definito su Appunti “il problema della lungimiranza”. In breve, da settembre OpenAI ha lanciato un modello completamente nuovo, chiamato o1 (seguito ora da o3), in grado di risolvere compiti che richiedono ragionamento: matematica, fisica, programmazione ecc.

Automatizzare la programmazione dei computer è una questione strategica nell’industria dell’AI, sia come potenziale mercato che per accelerare lo sviluppo dei modelli successivi. Anche i dettagli della costruzione di o1 non sono stati diffusi, tanto che esiste un fronte di ricerca proprio dedicato a riprodurlo.

Bene: l’altro modello di DeepSeek, chiamato R1, di cui non si sta parlando abbastanza, da qualche settimana fa le stesse cose: ha riprodotto essenzialmente gli stessi risultati, e ha rilasciato il suo metodo in open source. o1, assieme alle significative risorse computazionali, era uno dei vantaggi di quell’azienda.

Teniamo comunque presente che l’enorme investimento in computer center non è solamente necessario per il “pre-addestramento”, e che i nuovi metodi di ragionamento richiedono risorse computazionali per rispondere a ciascuna domanda: in alcuni casi ho visto risposte che richiedevano due minuti ad essere calcolate da o1. Quindi ci sarà sicuramente bisogno di macchine enormi come quella annunciata la settimana scorsa da Stargate, il progetto di una nuova azienda che vuole costruire una infrastruttura da 500 miliardi di dollari per OpenAI negli Stati Uniti.

Una parola che si usa spesso in quell’industria è il “fossato” (the moat), ovvero la protezione dai competitori. Se esista o no un fossato a proteggere l’industria AI americana è una questione per altri, a me basta capire a che punto siamo nel viaggio verso macchine sempre più intelligenti. Alla fine è questo quello che plasmerà il futuro.

L’importante in queste cose è tenere d’occhio il lungo termine e il significato delle cose: qui si tratta di sviluppare una nuova frontiera scientifica, e rispondere a delle domande veramente fondamentali.

Il lungo termine

Dal punto di vista scientifico ogni replicazione è una buona notizia: che un gruppo separato abbia indipendentemente replicato gli stessi risultati di altri gruppi di ricerca, fornisce assicurazione che la strada è sicura, la tecnologia sta diventando stabile e matura, e il metodo funziona. Il fatto che abbiamo una versione open source di tutto questo consente ai gruppi accademici e ai paesi più poveri di partecipare, e questo porterà ulteriori accelerazioni nel lungo termine.

Anche l’Italia ha le risorse computazionali per generare modelli di questo livello, per esempio al Cineca di Bologna. Non sarebbe male vedere un prodotto in grado di competere con quelli americani e cinesi, con le stesse prestazioni sugli stessi test.

Il fatto che questo sia successo in Cina non dovrebbe sorprendere: i colleghi cinesi sono eccellenti, hanno risorse e preparazioni uguali alle nostre, e da molti anni partecipano alle stesse conferenze, contribuendo i propri risultati in lingua inglese, da sempre. Perché dovremmo stupirci se ottengono gli stessi risultati?

La scienza è un’impresa collettiva, e ha lo scopo di capire le cose. La domanda è fino a che punto possiamo aumentare l’intelligenza delle macchine, a quale prezzo, con quali benefici e quali rischi. Da circa sei mesi l’accelerazione è chiarissima, le prestazioni dei modelli di punta sui test (benchmark) si stanno avvicinando alle prestazioni umane in diverse discipline, e c’è ancora spazio di crescita nella tecnologia.

Nei prossimi mesi dovremmo tenere d’occhio i test rigorosi usati dall’industria per confrontare macchine diverse, come DeepSeek e GPT e Claude, ma sempre di più anche il confronto tra macchine e persone, sugli stessi problemi. Sarà quella la vera grande storia da seguire nel 2025.

  • Dal Substack di Stefano Feltri, Appunti, 28 gennaio 2025

appunti

Print Friendly, PDF & Email

Un commento

  1. Alessandro Benassi 29 gennaio 2025

Lascia un commento

Questo sito fa uso di cookies tecnici ed analitici, non di profilazione. Clicca per leggere l'informativa completa.

Questo sito utilizza esclusivamente cookie tecnici ed analitici con mascheratura dell'indirizzo IP del navigatore. L'utilizzo dei cookie è funzionale al fine di permettere i funzionamenti e fonire migliore esperienza di navigazione all'utente, garantendone la privacy. Non sono predisposti sul presente sito cookies di profilazione, nè di prima, né di terza parte. In ottemperanza del Regolamento Europeo 679/2016, altrimenti General Data Protection Regulation (GDPR), nonché delle disposizioni previste dal d. lgs. 196/2003 novellato dal d.lgs 101/2018, altrimenti "Codice privacy", con specifico riferimento all'articolo 122 del medesimo, citando poi il provvedimento dell'authority di garanzia, altrimenti autorità "Garante per la protezione dei dati personali", la quale con il pronunciamento "Linee guida cookie e altri strumenti di tracciamento del 10 giugno 2021 [9677876]" , specifica ulteriormente le modalità, i diritti degli interessati, i doveri dei titolari del trattamento e le best practice in materia, cliccando su "Accetto", in modo del tutto libero e consapevole, si perviene a conoscenza del fatto che su questo sito web è fatto utilizzo di cookie tecnici, strettamente necessari al funzionamento tecnico del sito, e di i cookie analytics, con mascharatura dell'indirizzo IP. Vedasi il succitato provvedimento al 7.2. I cookies hanno, come previsto per legge, una durata di permanenza sui dispositivi dei navigatori di 6 mesi, terminati i quali verrà reiterata segnalazione di utilizzo e richiesta di accettazione. Non sono previsti cookie wall, accettazioni con scrolling o altre modalità considerabili non corrette e non trasparenti.

Ho preso visione ed accetto