1.7 millones de dólares para resolver problemaso3 El Espejismo de la Superinteligencia

La paradoja de gastar millones en imitar lo que un cerebro logra con la energía de una tostadora. El último modelo de OpenAI marca un hito en la carrera por la AGI, pero también expone brutalmente cuán lejos estamos de comprender la eficiencia del pensamiento humano

27 | Diciembre | 2024

Imagen del artículo

Debo confesar que la reciente presentación de o3 por parte de OpenAI me ha dejado con una mezcla de asombro y duda. No puedo evitar preguntarme si estoy viendo un verdadero avance hacia la AGI o simplemente de un impresionante despliegue de fuerza bruta computacional.

Lo primero que llama la atención es el costo: 1.7 millones de dólares (costo computacional que cobraría OpenIA) para alcanzar un 87.5% en el benchmark ARC AGI. ¿Realmente necesitamos gastar tanto para resolver problemas que un humano puede abordar con una taza de café y un bloc de notas?

Paremos un momento, ¿Qué es el benchmark ARC AGI? (Abstraction and Reasoning Corpus for Artificial General Intelligence) es un conjunto de pruebas diseñado para evaluar la capacidad de una inteligencia artificial para realizar tareas de razonamiento abstracto y generalización. Fue creado por François Chollet, un reconocido experto en IA, con el objetivo de medir la habilidad de los sistemas de IA para adaptarse a nuevos contextos y resolver problemas con lógicas diferentes a lo que han visto durante su entrenamiento. Básicamente diseñó un conjunto de puzzles tan simples que cualquier niño podría resolverlos; un humano los mira, identifica el patrón, y resuelve el siguiente paso casi instintivamente. Pero representan un gran desafío para las IA, ya que requieren una comprensión profunda de las relaciones abstractas y la capacidad de razonar de forma flexible.

El verdadero desafío que plantea el ARC AGI no es la resolución de puzzles en sí, sino la capacidad de generalizar el aprendizaje. Es la diferencia entre memorizar las respuestas de un examen y comprender realmente la materia. Y hasta ahora, nuestras IAs han sido excelentes estudiantes de memoria, pero no tan buenas en comprensión profunda. Que o3 haya alcanzado un 87.5% en este benchmark es impresionante, sí, pero también contradictorio. ¿Cuánta potencia computacional y energía se necesitó para lograr algo que un humano hace sin esfuerzo? Es como usar un superordenador para sumar 2+2.

Una fortuna en Cómputo

Y eso es lo segundo: la paradoja energética. Mientras nuestro cerebro opera con la modesta potencia de una bombilla antigua (10 vatios), necesitamos cientos de miles de GPUs funcionando durante meses para intentar emular su capacidad de razonamiento. Esta disparidad energética nos hace pensar seriamente si el enfoque hacia la IA es el correcto.

Si dudas que la mejora de o1 a o3 es sorprendente (Se saltearon o2 simplemente por que la marca ya estaba registrada). O3 se ha convertido en el programador número 175 del mundo, ha logrado un 25% en el benchmark Frontier math, dejando atrás el humilde 2% de sus predecesores y alcanza un 87.7% en GP qa Diamond de preguntas a nivel de doctorado. Pero ¿estamos confundiendo la capacidad de procesar grandes cantidades de datos con verdadera inteligencia? ¿Sería como si midiéramos la sabiduría o inteligencia de una persona por la cantidad de libros que puede memorizar?

La gran diferencia con modelos anteriores es que o3 emplea tiempo de inferencia (y cómputo adicional), lo que significa que dedica tiempo a "pensar" para generar respuestas más precisas. Esto es un cambio de paradigma respecto a los modelos que dan respuestas inmediatas. Algo que ya hacía o1, pero ahora con mucha mas potencia por detrás.

Clases sociales IA

La llegada de modelos como o3 puede marcar el inicio de una nueva estratificación digital: la brecha del poder computacional. Si hoy nos parece normal pagar una suscripción mensual de ChatGPT por el precio de unas pizzas, el panorama que dibuja o3 es radicalmente distinto. Cuando el acceso a la máxima capacidad de razonamiento artificial requiere inversiones millonarias en tiempo de computación, emerge una nueva aristocracia tecnológica. Ya no hablamos de la diferencia entre tener o no tener internet, sino de quién puede permitirse hacer "pensar profundamente" a la IA. Esta división no solo amplificaría las desigualdades existentes, sino que crearía una nueva forma de poder basada en el acceso al pensamiento artificial de alta gama. Es la diferencia entre tener un asistente que responde al momento y otro que medita durante días para darte la respuesta perfecta, pero solo si puedes pagar la factura de energía de un país pequeño.

¿Es o3 una AGI?

La pregunta clave es si o3 puede considerarse una AGI. La respuesta, para mí es un rotundo NO. Al menos no en la definición más estricta del término. Una AGI debería poder realizar cualquier tarea intelectual que un humano puede realizar, y aunque o3 muestra un gran avance, todavía existen limitaciones:

  • Falta de Comprensión Real: Aunque los modelos de lenguaje grandes (LLMs) como o3 parecen entender y procesar información de manera similar a los humanos, algunos expertos argumentan que no comprenden el significado real de lo que dicen y simplemente usan correlaciones estadísticas.
  • Dependencia de Datos de Entrenamiento: Los LLMs funcionan como repositorios de programas vectoriales que se ejecutan en el input. Estos modelos aprenden de datos humanos, pero pueden tener problemas para adaptarse a situaciones fuera de los datos de entrenamiento.
  • Limitaciones en el Mundo Real: o3 no puede interactuar directamente con la realidad, ya que depende de instrucciones en lenguaje natural generadas por el propio modelo y evaluadas por otro modelo.
  • Y por ahora los costos asociados hacen imposible su despliegue a gran escala, la promesa de o3 mini para 2025 suena como un intento de democratizar esta tecnología

El debate sobre si o3 representa un paso hacia la AGI me parece secundario frente a una pregunta más fundamental: ¿estamos siquiera en el camino correcto? Los benchmarks y las métricas de rendimiento son impresionantes, pero siguen siendo medidas artificiales de una inteligencia que tal vez no comprendemos realmente. Me parece que por estar tan obsesionados con superar benchmarks se pierda de vista el objetivo de comprender la naturaleza de la inteligencia. La verdadera lección de o3 podría no estar en sus logros, sino en sus limitaciones. Nos muestra, con brutalidad, cuán lejos estamos de comprender y replicar la eficiencia del cerebro humano.

O3 me parece, sin duda, un logro técnico impresionante. Pero también es un recordatorio de nuestra propia ignorancia sobre la naturaleza de la inteligencia. Y tal vez esa sea su contribución más valiosa al campo: mostrarnos cuánto nos falta por aprender.

Enlaces

https://x.com/OpenAI/status/1870186518230511844 https://arcprize.org/blog/oai-o3-pub-breakthrough