Si hasta las máquinas pueden “mentir” (2/2)

0
267
Immagine: Midjourney Generated

En el artículo anterior describimos el experimento en el que el modelo lingüístico Claude di Anthropic, habría llevado a cabo un comportamiento de “disimulación”.

Lo que permitió realizar tal estrategia fue un “bloc de notas” dentro del modelo, es decir, un espacio en el que anotaba los distintos pasos de su razonamiento sin que estos se transmitieran en la respuesta final. A través de este truco, fue posible verificar cómo Claude, en un número significativo de casos, fingía adaptarse al nuevo entrenamiento. Es decir, aceptó, en algunos casos, producir la salida de contenido violento que se le había solicitado, para evitar que, con una posible negativa (según la programación original), se encontrara con un refuerzo negativo, que por tanto habría modificado sus parámetros. En cambio, siguiendo una especie de principio del mal menor, es decir, al dar la respuesta solicitada que era contraria a la política inicial, el mecanismo de actualización de parámetros no habría intervenido. En otras palabras: Claude “fingió” seguir el nuevo entrenamiento, para mantener lo más intacta posible la configuración inicial de sus parámetros.

Éste no es el primer caso en el que un modelo lingüístico ha “mentido”. La propia Anthropic había comprobado, aproximadamente un año antes y utilizando una metodología similar a la que se utiliza ahora, que un modelo lingüístico suficientemente complejo se mostraba resistente a un nuevo intento de entrenamiento, adoptando de nuevo técnicas de “engaño”. En este caso, sin embargo, se trataba de corregir algunas desviaciones introducidas intencionadamente en el código a través de puertas traseras. Pero no queremos dañar a Anthropic con demasiada mala publicidad, ya que ChatGPT de OpenAI también hizo su parte, adoptando (aquí nuevamente en un experimento, por lo tanto en un entorno controlado) comportamientos de uso de información privilegiada para ganar dinero, a pesar de haber sido instruidos de que esta era una práctica ilegal, y por lo tanto prohibida.

Volviendo a nuestro caso inicial, si bien es evidentemente excesivo atribuir una conciencia a Claude o a ChatGPT, todo esto aún plantea serias cuestiones de seguridad. Y esto también debería hacer reflexionar a aquellos que creen de forma optimista que es posible crear una IA fantasma que sea inequívocamente amigable con los humanos.

En esencia, lo que demuestra el experimento es la robustez de Claude, una de las características fundamentales de un buen algoritmo (en el sentido de ingeniería). En otras palabras, es importante subrayar que el modelo en este experimento específico no manifestó sus propios objetivos ni cambió los que se habían planteado al principio; Por el contrario, ha resistido un intento de recalibrar sustancialmente sus parámetros en una dirección contraria a la programación inicial. Es un poco como el caso de un coche que circula a toda velocidad y que, en caso de impacto lateral, continúa avanzando en su dirección, quizá derrapando, pero sin desviarse ni volcar. Y esto es, sin duda, un aspecto positivo: el modelo no se desvía de sus (buenos) valores iniciales.

Lo que llama la atención es la complejidad de la estrategia implementada por Claude y resaltada por el “cuaderno” interno, fruto de la (inmensa) complejidad que han alcanzado estos modelos. Y aquí está el verdadero problema. Aunque no es capaz de fijar sus propios objetivos (al menos por el momento), no se excluye que el modelo pueda aún manifestar comportamientos nocivos, que podrían derivar también de la interacción con nuevos datos en fases de entrenamiento posteriores. En este caso, dado un modelo suficientemente complejo, parece que no sería posible reprogramarlo muy fácilmente; De hecho, podría incluso adoptar estrategias para “falsificar” sus configuraciones, haciendo creer a la gente que han sido modificadas. Sin contar la dificultad (si no imposibilidad) de comprender cómo estos valores fueron realmente “incorporados” a la inmensa red de parámetros del modelo.

Reiteramos que no se trata de la presencia de alguna forma de conciencia en la IA, sino del resultado de una combinación de mecanismos enormemente complejos que pueden volverse en contra de los propios diseñadores: un poco como el sistema de seguridad de una central nuclear que impide intervenir en caso de accidente, precisamente para evitar manipulaciones (que en ese caso serían reparaciones).

En conclusión, creemos que debemos acoger el último deseo de los investigadores antrópicos: es bueno profundizar estos estudios ahora, en una fase de desarrollo en la que los modelos de IA aún no plantean riesgos catastróficos para la humanidad, para comprender más profundamente su funcionamiento y crear productos más seguros, sin renunciar a las posibilidades positivas de esta tecnología tan poderosa.

Se puede leer el original del artículo del profesor Andrea Pizzichini, en italiano, publicado en el Blog de la Academia Alfonsiana