Che anno! Non so se il 2023 verrà davvero ricordato come l’anno in cui abbiamo imboccato la strada giusta verso l’intelligenza artificiale, o se sia solamente parte di quel lungo ciclo di stagioni che da decenni in questo campo alterna picchi di ottimismo, periodi di sconforto, false partenze, spettacolari delusioni.
Lo scopriremo presto. Di certo questo è stato l’anno in cui abbiamo conversato con delle macchine intelligenti, in cui abbiamo approvato la prima legge dedicata a regolamentarle, in cui i capi di Stato e di governo hanno parlato apertamente di rischi globali di questa tecnologia, e questo è successo soprattutto perché da quest’anno l’intelligenza artificiale non è più un promettente fenomeno da laboratorio, e non è nemmeno più nascosta all’interno di prodotti come quelli che raccomandano libri e video.
Da quest’anno l’intelligenza artificiale è visibile e accessibile a tutti, alle mani e anche alle menti dei consumatori.
Il mercato del lavoro si sta adattando: la possibilità offerta dall’intelligenza artificiale di scrivere, conversare, creare video e immagini, comprendere il contenuto delle fotografie, non potrà lasciare la situazione invariata.
Ricordo che pochi anni fa si insegnava agli studenti che un computer non era in grado di distinguere un cane da una volpe, o di comprendere un testo, o di programmare un altro computer. Tutto questo oggi è possibile.
Quello che non sappiamo è quanto velocemente questi cambiamenti produrranno conseguenze economiche.
Le novità
Queste le principali novità: abbiamo scoperto che un meccanismo statistico, se sufficientemente grande e con l’architettura giusta, può sviluppare una qualche comprensione del mondo, collegando input testuali e visivi, e usando entrambi per dare forma ai propri comportamenti.
Questo meccanismo si chiama «large language model», e viene creato automaticamente da un algoritmo di machine learning, sulla base di una quantità immensa di dati, con una computazione che richiede risorse cospicue: dati, energia, hardware, personale, soldi…
Quest’ultima osservazione spiega anche perché al momento ci sono poche aziende in grado di crearli e – aspetto molto importante – nessuna università.
La cosa è importante per la trasparenza e riproducibilità dei risultati, visto che al momento molte grandi aziende hanno smesso di pubblicare i dettagli dei modelli più avanzati, incluse le loro dimensioni.
Il modello stesso ha imparato a programmare i computer, creando la possibilità di creare più facilmente la prossima generazione di modelli.
L’intelligenza artificiale ha anche imparato a tradurre, a rispondere alle domande, a riassumere quantità enormi di documenti scritti in lingue diverse, e così via.
Non è chiaro che cos’altro potrà imparare a fare, ovvero quali altre abilità emergeranno, ma anche solo quello che abbiamo elencato è sufficiente a trasformare l’industria della conoscenza.
Editoria, ricerca, istruzione, intrattenimento stanno già incorporando questi metodi; customer service e call center saranno forse i primi a sentire la competizione, ma un giorno non così lontano anche alcuni aspetti della professione medica e legale potrebbero essere condizionati dall’intelligenza artificiale.
Modelli di linguaggio
I modelli di linguaggio, come GPT e Gemini, sono un meccanismo molto versatile, che può essere usato come base per una serie di applicazioni molto diverse tra loro. Vengono infatti chiamati anche foundation model (modelli di base) e sono al centro di discussioni politiche di alto livello, perché sono un tipo di tecnologia che potrebbe tradursi in veri vantaggi economici, ma anche difficile da comprendere e dunque da regolamentare.
Un errore nel modello di base potrebbe riflettersi in comportamenti indesiderati in molti prodotti, e quindi è giusto usare cautela.
Intendiamoci, il language model è un’innovazione molto importante, ma valgono ancora gli stessi principi che regolano da anni il settore dell’intelligenza artificiale. Ad esempio, l’uso della statistica invece di teorie esplicite; l’uso di dati trovati in documenti preesistenti, come le pagine web; e il bisogno di processare moli enormi di dati prima di averne dei benefici.
Quello che è cambiato è il fatto che si è trovato il modo di estrarre informazioni utili da miliardi di pagine, automaticamente, senza intervento umano, e questo si è rivelato un approccio così generale da farci parlare di nuovo di AGI, l’intelligenza artificiale generale.
Questo è un concetto abbastanza vago, che sembra quasi creato per essere frainteso. mentre alcuni autori sembrano riferirsi a un (impossibile) tipo di intelligenza universale, altri si limitano a usarlo per definire intelligenze non troppo specializzate.
Per questo è forse più utile distinguere tra AI specialista e generalista, e osservare che la generalità di un agente intelligente è solo una questione di grado: nemmeno gli esseri umani sono dotati di una intelligenza universale, ma sono certo più flessibili di un insetto o dell’algoritmo che gioca a Go.
È il numero di compiti che un agente può apprendere, a definirne la generalità, e certo GPT sembra in grado di apprendere una vasta gamma di compiti.
La società che ha lanciato ChatGPT, OpenAI, definisce l’AGI come una AI che svolge molti compiti svolti da esseri umani e che hanno valore economico: guidare, tradurre, dialogare, riassumere, investire, insegnare, diagnosticare? Nessuna di queste cose è teoricamente impossibile. Tutte potrebbero essere svolte da una intelligenza artificiale generale.
Cosa possiamo aspettarci dal 2024?
Spero che per un po’ continueremo a raffinare, ingrandire e approfondire le tecniche che abbiamo creato: ce n’è abbastanza per una generazione di scienziati, perché la verità è che ancora non comprendiamo come funzionino, e quindi in quali situazioni possano comportarsi in modo imprevisto.
Sarà importante imparare a ridurre al minimo gli errori che la macchina ancora compie nelle risposte, ma anche a tutelare i valori e le norme della nostra società: trattamento uguale per tutti, trasparenza, privacy, e così via.
La discussione sta passando anche nelle mani degli scienziati sociali e dei politici, come è giusto che sia, visto che si tratta di concetti che esulano dalle competenze degli informatici.
Ingrandire i modelli attuali, anche solo aumentando le dimensioni dei dati di addestramento, può portare a ulteriore progresso, senza dover cambiare tecnologia, e possiamo aspettarci che questo avvenga nel 2024.
Ma anche semplicemente usare gli stessi meccanismi che abbiamo già creato può essere trasformativo: abbiamo abbastanza componenti, in questo momento, per dialogare a lungo al telefono con una macchina, o per farle tradurre una video-conversazione in tempo reale, o chiedere a un servizio come Youtube di creare uno specifico video per noi.
Dato che questo sarà un anno di elezioni in molti Paesi, possiamo aspettarci usi molto creativi di questa tecnologia, e un anno molto intenso per i servizi di cyber-sicurezza.
- Dal Substack di Stefano Feltri, Appunti, 22 dicembre 2023