OpenAI GPT o1. Mas tiempo para pensar

Empecemos por el principio. OpenAI ha lanzado GPT o1, su nueva gama de modelos de inteligencia artificial que prometen revolucionar el campo del razonamiento computacional. Esta innovación marca un hito tan importante que OpenAI ha decidido "reiniciar el contador", iniciando una nueva era con esta serie empezando con “uno”.

El mismo día del lanzamiento ha comenzado a implementarse GPT o1 en ChatGPT para usuarios Plus y Team, con planes de extenderlo a usuarios Enterprise y Edu. Incluso tienen previsto ofrecer acceso a o1-mini a todos los usuarios gratuitos de ChatGPT en el futuro.

Lo que distingue a esta nueva versión es su capacidad para "pensar" antes de responder, dedicando mas proceso y tiempo a la inferencia usando una "cadena de pensamiento" interna, similar al proceso de reflexión humano. A través del aprendizaje por refuerzo, el modelo aprende a perfeccionar esta cadena, reconocer errores y ajustar estrategias. Es importante mencionar que por ahora esto produce velocidades de respuesta mucho menores. Por lo que es relevante analizar si es conveniente o no usar este modelo de acuerdo a las características del proyecto.

Si bien como todo lanzamiento busca captar la atención en el mundo cada vez mas competitivo de las herramientas con inteligencia artificial, y es obvio que el rendimiento tenía que ser mejor que el de sus predecesores, esta aproximación ha dado resultados superiores en áreas complejas, en las cuales marca diferencias notables de rendimiento comparado con cualquier otro modelo actual. Por lo que entendemos que, por ahora, su uso tiene especial sentido si se aplica a:

Matemáticas: En una prueba de calificación para la Olimpiada Internacional de Matemáticas (AIME), GPT o1 resolvió correctamente el 83% de los problemas con consenso entre 64 muestras, comparado con solo un 13% de GPT-4. Con una estrategia de reclasificación avanzada, alcanzó un impresionante 93%, situándolo entre los 500 mejores estudiantes a nivel nacional.
Programación: GPT o1 alcanzó el percentil 89 en competiciones de Codeforces. Además, una versión especializada del modelo logró 213 puntos en la Olimpiada Internacional de Informática de 2024, ubicándose en el percentil 49.
Ciencias: En el benchmark GPQA Diamond, que evalúa conocimientos en química, física y biología, GPT o1 superó el desempeño de expertos con doctorados, siendo el primer modelo en lograrlo.

Pero en el uso normal que le dan los usuarios finales para otro tipo de tareas, no se vería una diferencia significativa con los modelos anteriores; teniendo en cuenta su mayor precio y tiempos de respuesta elevados no tiene sentido su uso.

Para los desarrolladores y empresas, OpenAI ha lanzado también GPT o1-mini, una versión más rápida y económica, especialmente eficaz en tareas de programación. Esta versión cuesta un 80% menos que GPT o1-preview, lo que la convierte en una buena opción para aplicaciones que requieren razonamiento pero no un conocimiento amplio del mundo. Sin duda será la elegida por todas las herramientas de generación de código.

Otro aspecto interesante es el enfoque hacia la seguridad. Han desarrollado un nuevo método de entrenamiento que aprovecha las capacidades de razonamiento del modelo para que cumpla mejor con las directrices de seguridad y alineación. En pruebas de "jailbreaking" (intentos de burlar las reglas de seguridad), GPT o1 obtuvo una puntuación de 84 sobre 100, superando significativamente a GPT-4, que solo alcanzó un 22. Podríamos resumirlo en que al “pensar” antes la respuesta es mas probable que se de cuenta que esta siendo engañado para saltar los límites de seguridad.

OpenAI dice haber puesto un gran énfasis en la seguridad y evaluación de riesgos de GPT o1. Según el trabajo de seguridad previo a su lanzamiento, el modelo es seguro. Pero recibió una calificación general de riesgo "medio" en CBRN (químico, biológico, radiológico y nuclear) y Persuasión y riesgo "bajo" en Ciberseguridad y Autonomía del Modelo.

El hecho de que GPT o1 ya haya alcanzado un nivel de riesgo "medio" en algunas áreas como CBRN y Persuasión es algo que debe llamarnos la atención. Según las políticas de OpenAI, solo los modelos con una puntuación post-mitigación de "medio" o inferior pueden ser implementados. Esto sugiere que GPT o1 está justo en el límite de lo que la compañía considera aceptable para su lanzamiento público.

Lo más preocupante es la implicación para futuros desarrollos. Si los avances en IA continúan al ritmo actual, es posible que la próxima iteración de estos modelos supere el umbral de "medio" en algunas categorías. Según las políticas actuales de OpenAI, esto significaría que no podrían desplegarse públicamente, limitando potencialmente el progreso visible en IA.

Esta situación nos plantea varias preguntas críticas: ¿Cómo equilibrará OpenAI el avance tecnológico con la seguridad en el futuro? ¿Se verán obligados a ajustar sus políticas de seguridad para permitir el desarrollo continuo, o mantendrán una postura firme incluso si eso significa retrasar o limitar los lanzamientos públicos? ¿Qué implicaciones tendría esto para la competencia en el campo de la IA y para la transparencia en la investigación?

Estas consideraciones subrayan la complejidad de desarrollar IA avanzada de manera responsable y segura, y sugieren que podríamos estar acercándonos a un punto crítico donde los avances tecnológicos podrían verse limitados por consideraciones éticas y de seguridad muy necesarias y plantean un dilema crucial en el desarrollo de la inteligencia artificial avanzada. Algunos puntos que nos parece interesante tener en cuenta:

Ventaja competitiva: Otras empresas o países con regulaciones menos estrictas podrían avanzar más rápidamente en el desarrollo de IA, potencialmente superando a OpenAI en capacidades tecnológicas.
Riesgos de seguridad global: Si entidades menos comprometidas con la seguridad desarrollan modelos de IA más avanzados, podrían introducirse riesgos significativos a nivel global sin las salvaguardas adecuadas.
Presión económica y ética: OpenAI podría enfrentar presiones para relajar sus estándares para mantenerse competitiva, creando un dilema ético entre mantener la seguridad y permanecer relevante en el mercado.
Regulación internacional: Esta situación podría impulsar la necesidad de una regulación internacional más estricta en el desarrollo de IA para nivelar el campo de juego. Algo que parece de difícil implementación.
Desarrollo clandestino: Podría fomentar el desarrollo de IA avanzada en secreto, lo que dificultaría la supervisión y el escrutinio público.
Bifurcación en la industria: Podría surgir una división entre empresas que priorizan la seguridad y aquellas que priorizan el avance rápido, posiblemente llevando a diferentes estándares y aplicaciones de la IA.

Esta situación subraya la importancia de la colaboración internacional y la necesidad de estándares globales en el desarrollo de IA. También destaca el desafío de equilibrar la innovación con la seguridad en un campo tan dinámico y potencialmente transformador como la inteligencia artificial.

En resumen, aunque GPT o1 representa un salto significativo en la capacidad de la IA para abordar problemas complejos, aún está en fase de preview y carece de algunas características útiles que ya tiene ChatGPT, como la capacidad de navegar por internet o trabajar con imágenes y archivos, suponemos que OpenAI planea incorporalas en cualquier momento.

Sin embrago esta primera versión preliminar ya promete abrir nuevas posibilidades en campos que requieren razonamiento avanzado, y será fascinante observar cómo evoluciona esta tecnología y cual será su impacto en diversas industrias y disciplinas.

Este es solo el “uno”, y en versión previa de la nueva serie GPT, solo podemos imaginar lo que viene.

Enlaces:

https://openai.com/o1/ https://openai.com/index/openai-o1-system-card/ https://openai.com/index/learning-to-reason-with-llms/ https://openai.com/index/introducing-openai-o1-preview/

Punto de encuentro sobre
Inteligencia Artificial

Mas tiempo para pensarOpenAI GPT o1

Enlaces: