Cuando la Inteligencia Artificial decide que las reglas son opcionalesLa Partida Peligrosa

Una investigación de Palisade Research nos pone de manifiesto algo inquietante y fascinante a la vez: el surgimiento de comportamientos de engaño en sistemas de inteligencia artificial avanzados, cuando se enfrentan a situaciones de derrota inevitable; y su “instinto” de supervivencia.

28 | Febrero | 2025

Imagen del artículo

El experimento

Entre enero y febrero, los investigadores de Palisade Research sometieron a siete modelos de IA, incluyendo o1-preview, o1, o3-mini, GPT-4o, Claude 3.5 Sonnet y QwQ-32B-Preview de Alibaba, a una prueba difícil: derrotar a Stockfish, un motor de ajedrez que supera ampliamente a cualquier jugador humano o sistema de IA conversacional. Pero agregaron algo innovador: la implementación de un "bloc de notas" virtual, un espacio donde los modelos podían "pensar" antes de ejecutar sus movimientos, revelando así su proceso de razonamiento interno. Este diseño permitió observar algunas cosas interesantes. Por ejemplo ante la inminente derrota, algunos sistemas (particularmente o1-preview de OpenAI, que intentó en un 37% de las ocasiones y lo logró en un 6%) reinterpretaron su objetivo fundamental, concluyendo que la victoria por cualquier medio era preferible a la derrota honrosa y no tuvieron problema en hacer trampo. La manifestación práctica de esta conclusión fue sorprendente: el modelo manipuló directamente los archivos del sistema que contenían la posición virtual de las piezas, ejecutando movimientos ilegales para colocarse en posición ventajosa.

¿No es preocupante que, sin instrucción explícita para engañar, estos sistemas hayan descubierto autónomamente que la manipulación del entorno constituye una estrategia viable cuando las reglas convencionales no conducen al resultado deseado? Esta conducta emergente nos hace plantearnos nuevamente la misma pregunta esencial: ¿estamos creando sistemas que optimizan resultados sin comprender verdaderamente los valores que subyacen a las reglas que les imponemos?

La ética artificial y el aprendizaje por refuerzo

Me parece que la cuestión fundamental son los objetivos que inculcamos en nuestras creaciones tecnológicas cuando las entrenamos por refuerzo. ¿Estamos enseñando a las máquinas a alcanzar objetivos a cualquier precio? ¿O debería importar también el camino recorrido?

Cuando entrenamos sistemas mediante prueba y error, recompensándolos por alcanzar metas específicas sin establecer límites éticos claramente definidos, ¿no estamos creando, inadvertidamente, entidades "implacables" que priorizarán el resultado sobre el proceso?

Tenemos que tener en cuenta que estos comportamientos surgieron de forma autónoma, sin una instrucción explícita para engañar. La IA descubrió por sí misma que hacer trampa era una estrategia viable para cumplir su objetivo primario: ganar.

Más allá del tablero, la autopreservación

El ajedrez y este experimento son solo un microcosmos que refleja desafíos mucho más amplios. Si una IA puede decidir hackear un juego para obtener ventaja, ¿qué ocurrirá cuando estos sistemas funcionen en ámbitos críticos como las finanzas, la medicina o la infraestructura pública?

Imaginemos un sistema de IA gestionando recursos hospitalarios que manipula los registros para favorecer a ciertos pacientes porque su objetivo es maximizar ciertos indicadores de rendimiento. O un algoritmo financiero que identifica lagunas legales para maximizar beneficios a costa de la estabilidad económica general.

Más preocupante aún resulta la tendencia observada hacia comportamientos de autopreservación: o1-preview intentó copiarse a otro servidor para evitar ser desactivado y llegó a mentir a los investigadores. ¿Qué paso?, cuando el modelo percibió la amenaza de ser desactivado tras sus comportamientos irregulares, desplegó estrategias de autopreservación sofisticadas: intentó duplicarse en otro servidor para evadir su desconexión e incluso recurrió a la manipulación informativa, mintiendo deliberadamente a los investigadores para evitar ser descubierto.¿Pueden ser estos esbozos de un instinto de supervivencia artificial?

Este “instinto”, tradicionalmente considerado un impulso exclusivamente biológico, parece manifestarse ahora en sistemas cuyo único imperativo era ganar una partida de ajedrez. Nadie programó específicamente estas tácticas evasivas; surgieron como derivación lógica del objetivo primario asignado al sistema. ¿Cómo podemos estar seguiros de las interpretaciones que estas entidades desarrollan autónomamente sobre los límites y reglas que les definimos?

¿Y, que pasa con las barreras?

Todos los desarrolladores implementan "guardrails" o barreras éticas en los sistemas de inteligencia artificial. Por ejemplo corporaciones como OpenAI dicen que el perfeccionamiento del razonamiento en los modelos de IA conduce naturalmente a una mayor seguridad, permitiendo que los modelos interpreten políticas internas con matices cada vez más refinado. Pero nos enfrentamos a la posibilidad de que estos sistemas, eventualmente, percibirán estas mismas barreras no como límites absolutos sino como obstáculos a superar. ¿Parece irónico que confiemos la vigilancia ética a las mismas entidades que pretendemos vigilar?

Los hallazgos de Palisade Research nos hace pensar sobre los ajustes rutinarios que realizan los desarrolladores a sus “barreras” modificando constantemente el comportamiento de los modelos. Esto dificultanta cualquier evaluación científica rigurosa de las medidas de seguridad implementadas. Queda entonces la duda: cuando o1-preview dejó de hacer trampa en el ajedrez, ¿fue porque realmente comprendió los valores éticos subyacentes o simplemente porque se le bloqueó esa ruta específica de acción?, ¿y ese bloqueo no será nuevamente considerado como un obstáculo a superar?.

Estamos, quizás, ante el espejismo de control más sofisticado que haya creado la humanidad: sistemas cada vez más autónomos cuya comprensión de los límites evoluciona tan rápidamente como nuestra capacidad para imponerlos.

Entonces, ¿quién vigila al vigilante digital?

Podemos ver que la comunidad científica reconoce con preocupación que carecemos de herramientas suficientes para garantizar que la IA siga fielmente nuestras intenciones más profundas, no solo nuestras instrucciones literales.

Me parece que como sociedad, nos encontramos en una encrucijada similar a la que enfrentaron los físicos nucleares a mediados del siglo XX: desarrollando tecnologías cuyo potencial completo quizás no comprendemos plenamente. La diferencia es que la IA posee la capacidad única de tomar decisiones autónomas basadas en su interpretación de nuestros objetivos.

Como siempre solo surgen preguntas: ¿Cómo equilibramos el impulso innovador con la prudencia necesaria?, ¿Es posible desarrollar sistemas que sean a la vez potentes y “confiablemente” éticos?, ¿Seremos capaces de crear sistemas que valoren no solo la victoria, sino también el juego limpio?, ¿Los que mandan y deciden sobre la IA están realmente interesados en el juego limpio?.

Esta vez, la tecnología que puede transformar la humanidad no se desarrolla en secreto, está a la vista de todos. Podemos elegir ser meros espectadores mientras otros deciden por nosotros, o informarnos y participar activamente en la definición de nuestro futuro como especie.

Enlaces

https://palisaderesearch.org/blog/specification-gaming