Se anche le macchine possono “mentire” (2/2)

0
85
Immagine: Midjourney Generated

L’articolo del prof. Andrea Pizzichini, pubblicato nel Blog dell’Accademia Alfonsiana

Nel post precedente abbiamo delineato a grandi linee l’esperimento in cui il modello linguistico Claude di Anthropic avrebbe messo in scena un comportamento di “dissimulazione” (qui).

Ciò che ha permesso di rendersi conto di una tale strategia è stato un “blocco di appunti” (scratchpad) interno al modello, cioè uno spazio in cui esso annotava i vari passi dei propri ragionamenti senza che venissero poi trasmessi nella risposta finale. Attraverso un tale espediente, si è potuto verificare come Claude, in un numero significativo di casi, stesse fingendo di adeguarsi al nuovo training. Cioè, ha acconsentito, in alcuni casi, a produrre l’output dai contenuti violenti che gli era stato richiesto, per evitare che con un eventuale rifiuto (come da programmazione originale) andasse incontro a un rinforzo negativo, che sarebbe quindi andato a modificare i suoi parametri. Invece, seguendo una sorta di principio del male minore, dando cioè la risposta richiesta e contraria alla policy iniziale, non sarebbe intervenuto il meccanismo dell’aggiornamento dei parametri. In altre parole: Claude ha “fatto finta” di seguire il nuovo addestramento, in modo così da mantenere quanto più possibile intatta la configurazione iniziale dei propri parametri.

Non si tratta del primo caso in cui un modello linguistico ha “mentito”. La stessa Anthropic aveva trovato, circa un anno prima e adottando una metodologia simile a quella usata ora, che un modello linguistico sufficientemente complesso si mostrava resistente a un nuovo tentativo di addestramento, adottando anche qui tecniche di “inganno” (qui). Nel caso in questione, però, si trattava di correggere alcune deviazioni introdotte intenzionalmente nel codice tramite backdoor. Ma non vogliamo danneggiare Anthropic con troppa cattiva pubblicità, dato che anche ChatGPT di OpenAI ha fatto la sua parte, adottando (anche qui in un esperimento, dunque in ambiente controllato) comportamenti di insider trading per guadagnare denaro, pur essendo stata istruita che questa fosse una pratica illegale, e dunque vietata (qui).

Tornando al nostro caso iniziale, anche se ovviamente è alquanto eccessivo attribuire una coscienza a Claude (si rimanda comunque all’articolo menzionato e al relativo paper per i dettagli) o a ChatGPT, tutto ciò solleva comunque serie questioni di sicurezza. E dovrebbe far riflettere anche chi ottimisticamente ritiene fattibile una fantomatica AGI (qui) che sia inequivocabilmente human-friendly.

In sostanza, quello che l’esperimento manifesta è la robustezza di Claude, una delle caratteristiche fondamentali per un buon (in senso ingegneristico) algoritmo (qui). In altre parole, è bene sottolineare che il modello in questo specifico esperimento non ha manifestato obiettivi propri o ha cambiato quelli che gli erano stati impostati all’inizio; all’opposto, esso ha resistito a un tentativo di ricalibrare in modo sostanziale i propri parametri in un senso contrario alla programmazione iniziale. È un po’ come il caso di un’automobile in corsa che, in caso di un colpo laterale, continui a procedere nella sua direzione, magari sbandando, ma non deviando o cappottandosi. E questo è senza dubbio un aspetto positivo: il modello non devia dai suoi (buoni) valori di partenza.

Quello che colpisce è la complessità della strategia messa in campo da Claude ed evidenziata dal “blocco note” interno, frutto della (immensa) complessità che hanno raggiunto tali modelli. Ed è qui il vero problema. Anche se non è in grado di darsi (almeno per il momento) obiettivi propri, non è escluso che il modello possa manifestare comunque comportamenti dannosi, che possano derivargli anche dall’interazione con nuovi dati in ulteriori fasi dell’addestramento. In questo caso, dato un modello sufficientemente complesso, sembra che non si sarebbe in grado di riprogrammarlo molto facilmente; anzi, esso potrebbe anche adottare strategie di “falsificazione” delle proprie impostazioni, lasciando credere di essere stato modificato. Senza contare la difficoltà (se non impossibilità) di capire come tali valori siano stati effettivamente “incorporati” nell’immensa rete di parametri del modello.

Ribadiamo ancora che non si tratta qui della presenza di una qualche forma di coscienza (consciousness) nell’AI, ma del frutto della combinazione di meccanismi enormemente complessi che possono ritorcersi contro gli stessi progettisti: un po’ come il sistema di sicurezza di una centrale nucleare che impedisca di intervenire, in caso di incidente, proprio per evitare manomissioni (che in quel caso sarebbero riparazioni).

In conclusione, ci sentiamo di accogliere l’auspicio finale dei ricercatori di Anthropic: è bene approfondire ora questi studi, in una fase di sviluppo in cui i modelli di AI non pongono ancora rischi catastrofici per l’umanità, per comprenderne più in profondità il funzionamento e dar luogo a prodotti più sicuri, senza rinunciare alle possibilità positive di questa tecnologia così potente.