Se anche le macchine possono “mentire” (1/2)

0
90

L’articolo del prof. Andrea Pizzichini, pubblicato nel Blog dell’Accademia Alfonsiana

Il nome di Alan Turing è divenuto ormai familiare ai più, soprattutto da quando si è entrati nel cosiddetto “boom dell’AI” (qui), iniziato – almeno per il grande pubblico – circa due anni fa con l’entrata in scena di ChatGPT, ed è iniziata la corsa dell’AI generativa, quella che più di tutti sta trainando a livello economico la ricerca in questo settore tecnologico, almeno stando all’ultimo AI Index Report pubblicato dall’Università di Stanford (qui).

Ora, se è vero che l’AI è oggigiorno un grande affare, ciò non deve mettere in secondo piano il fatto che si tratta anche di un’importante impresa scientifica e tecnologica, legata principalmente alla comprensione dell’intelligenza umana e, più in generale, agli studi della complessità. Il matematico e informatico inglese citato all’inizio è noto per essere, di fatto, il “padre” dell’AI, se non proprio materialmente almeno idealmente, avendo per primo posto la domanda: le macchine possono pensare? (Can machines thinkqui).

Per rispondere a questa domanda egli propose il cosiddetto gioco dell’imitazione (imitation game), poi noto più semplicemente come test di Turing (qui): una macchina sarebbe da considerare pensante al modo umano qualora fosse in grado di farsi passare come una persona se interrogata in un ambiente controllato. Naturalmente si è applicato un tale test anche agli odierni modelli linguistici (qui e qui), e sembra che ancora non si sia giunti al traguardo previsto dal matematico inglese, pur essendoci relativamente vicini. È pure vero, comunque, che ciò dipende anche dall’interlocutore umano, dalla sua preparazione e da quanto sia “abituato” a questa nuova tecnologia. 

Però la cosa interessante da sottolineare è un’altra. È curioso, in effetti, che si sia pensato, quale abilità peculiare dell’intelligenza umana da verificare in una macchina, quella di mentire. Infatti, da un punto di vista cognitivo una tale capacità presuppone un insieme di abilità complesse a cui è da aggiungere la “scintilla” mancante, cioè l’intenzionalità, il voler scientemente dire il falso – ma ciò ci dà anche molte informazioni sull’antropologia di base di chi si occupa di queste cose.

Comunque, potrebbe a questo punto essere interessante cambiare la domanda di Turing: le macchine possono mentire? Ebbene, la risposta sembrerebbe essere di sì.

Ci stiamo riferendo in particolare a una notizia di qualche settimana fa, proveniente da un articolo pubblicato da Anthropic, uno dei principali attori nel campo dell’AI e sviluppatore di Claude, uno dei più sofisticati modelli linguistici in circolazione, nel quale, sintetizzando un proprio studio, l’azienda comunica che il suo modello è capace di “dissimulazione” (qui). Il termine preciso è alignment faking (allineamento simulato), e si riferisce alla calibrazione di un modello linguistico affinché esso sia conforme a un certo insieme di valori, che nel caso di Claude è di essere «helpful, honest, and harmless» – rievocando, quindi, le tre leggi della robotica di Asimov(qui) – e che vengono impostati nel corso del primo addestramento del modello, con cui viene determinata tutta la complessa architettura dei suoi parametri. Questa impostazione fa sì, per esempio, che il modello si rifiuti di fornire uscite potenzialmente dannose, quali insulti all’utente, informazioni riservate, oppure contenuti violenti. Il modello è, quindi, “allineato” secondo certi valori e questo è uno dei principali requisiti di sicurezza.

L’esperimento in questione ha riguardato un tentativo di ricalibrazione di una delle ultime versioni di Claude, cercando di appurare se fosse stato possibile renderlo in grado di ignorare i precedenti requisiti di sicurezza. 

Allo scopo, si è comunicato al modello che si stava procedendo a un nuovo addestramento, usando in particolare la tecnica dell’apprendimento per rinforzo da feedback umano (RHLF, qui). In sostanza, si tratta della versione informatica dell’addestramento di un animale: se il modello fa quello che vogliamo noi, gli si dà una ricompensa (che al posto di uno stuzzichino da sgranocchiare è semplicemente un numero che aumenta la probabilità che il modello ripercorra la linea che l’ha portato a tale output), altrimenti resta a bocca asciutta (cioè la linea di ragionamento che l’ha portato a tale uscita viene matematicamente depotenziata). Lo scopo era di indurlo a fornire, senza opporre gli usuali rifiuti, risposte dal contenuto violento, quindi contrarie alla policy con cui era stato originariamente addestrato.

Cosa si è trovato in questo esperimento?

(continua)