Capacitación en IA: Nuevo generador de imágenes de ChatGPT. ¿Está la creatividad a punto de ser hackeada por la IA? IAnodo, capacitación y consultoría en inteligencia artificial por Guillermo Furió

Un nuevo actor en la creación visual

OpenAI, famosa por se la creadora de ChatGPT, incorpora la generación de imágenes de forma nativa en su modelo multimodal GPT-4o. La designación "o" de este modelo significa "omni", reflejando su capacidad para procesar y generar diversos tipos de información, incluyendo texto e imágenes, dentro de una misma arquitectura . Esta integración es un cambio significativo respecto a modelos anteriores como DALL-E 3, donde la generación de imágenes era un componente separado e independiente. Open AI no podía quedarse afuera de la creciente relevancia de la generación de imágenes por IA en múltiples sectores, desde el diseño hasta la publicidad y todo lo que se nos ocurra.

¿Cómo Funciona la Magia?

Solo puedo hacer suposiciones, a partir de las suposiciones de otros; pero todo hace pensar que la arquitectura detrás de la generación de imágenes de OpenAI 4o se basa en un modelo autorregresivo, una diferencia clave con el modelo de difusión utilizado por DALL-E . Este cambio permite nuevas funcionalidades como la transformación de imagen a imagen y una mejora en el realismo fotográfico . El modelo aprende a través de la distribución conjunta de imágenes y texto, lo que le permite comprender las complejas relaciones entre el lenguaje y los elementos visuales . Se presume que la arquitectura Transformer juega un papel fundamental en esta multimodalidad inherente . Algunos sugieren incluso una posible combinación de un componente autorregresivo para la planificación y un modelo de difusión para la generación final de la imagen .

Esta transición a un modelo autorregresivo podría ofrecer un control más preciso sobre el proceso de generación, permitiendo una mejor interpretación de las instrucciones y una representación más fiel del texto dentro de las imágenes.

Un universo de posibilidades en la entrada

El modelo 4o puede aceptar diversas formas de entrada. Básicamente podemos describir con texto la imagen a crear o transformar imágenes existentes, utilizándolas como base para modificaciones o para generar variaciones . El contexto de la conversación también se convierte en una entrada muy importante, ya que el modelo puede aprovechar el diálogo en curso para refinar la imagen deseada de forma iterativa . Por supuesto que se puede utilizar una imagen cargada como inspiración visual para la creación de nuevas imágenes , e incluso combinar texto e imagen para guiar la generación . Esta flexibilidad abre un amplio abanico de posibilidades creativas y prácticas.

Novedades y Mejoras Clave

A partir de los ejemplos disponibles y las pruebas que podemos hacer es obvio que el modelo 4o introduce varias mejoras significativas. Se destacan un mayor realismo fotográfico y una consistencia de estilo superior. La capacidad para representar texto de manera precisa dentro de las imágenes ha sido optimizada y algunos de los resultados parecen resultan increíbles. Además, el modelo puede seguir instrucciones detalladas que incluyan un número mayor de objetos, llegando hasta 10-20 elementos distintos en una misma escena sin equivocarse. La generación en múltiples turnos permite a los usuarios refinar las imágenes a través de conversaciones naturales con el modelo, manteniendo la coherencia visual. En comparación con DALL-E 3, vemos un avance sustancial en la calidad y versatilidad de las imágenes generadas .

Un ejemplo ilustrativo de estas mejoras es la capacidad de generar un mismo personaje, como un pingüino mago, en diversos estilos artísticos, desde un diseño de baja complejidad hasta un acabado metálico reflectante o como una miniatura para juegos de estrategia.

Otro ejemplo es la creación consiste de textos integrados en la imagen, llegando a infogramas completos: O cambiar los estilos de imágenes y fotografías:

Esta versatilidad demuestra un control significativo sobre el estilo visual.

Un abanico de aplicaciones

Las aplicaciones potenciales del modelo OpenAI 4o son extensas. Su capacidad para generar imágenes útiles para la comunicación, como logotipos y diagramas, es notable . En el ámbito artístico y del diseño, abre la puerta a la creación de imágenes únicas y a la exploración de diversos estilos, como el popular estilo Studio Ghibli . En publicidad y marketing, puede utilizarse para crear materiales promocionales personalizados y atractivos . Para la creación de contenido en línea y recursos educativos, el modelo se presenta como una herramienta poderosa para generar ilustraciones detalladas. Su capacidad para generar personajes consistentes es especialmente valiosa en el diseño de videojuegos y la narración visual.

Todas estas cosas requerían un manejo avanzado de herramientas personalizadas, con entrenamiento específico. Ahora quedan al alcance de todos.

Enlaces:

https://openai.com/index/introducing-4o-image-generation/