OpenAI integró la generación de imágenes directamente en ChatGPT con su modelo omnimodal GPT-4o, ofreciendo mayor coherencia, precisión y aplicaciones prácticas para diseño, educación y marketing digital, mientras mantiene medidas de seguridad para prevenir el uso indebido.
La compañía OpenAI finalmente lanzó la funcionalidad de generación de imágenes directamente en ChatGPT con el modelo GPT-4o, reemplazando al popular modelo DALL·E 3 que previamente utilizaba la plataforma.
A grandes rasgos, GPT-4o es un modelo “omnimodal” que maneja texto, imágenes, audio y vídeo, con capacidad para generar imágenes de forma autorregresiva (de izquierda a derecha y de arriba a abajo), lo que mejora la coherencia.
Por eso esta novedad permite crear imágenes de forma más coherente y precisa, integrando texto de manera legible e inclusive mejorando la representación visual de múltiples objetos.
Entre las mejoras destacadas se encuentran:
- Generación de imágenes con texto integrado y posicionado de forma profesional.
- Capacidad para manejar hasta 20 objetos en una escena, con características complejas.
- Estilos visuales flexibles, desde bocetos hasta imágenes hiperrealistas.
GPT-4o tiene aplicaciones prácticas en diseño gráfico, educación, desarrollo de videojuegos y marketing digital, permitiendo la personalización de imágenes en función de detalles como proporciones y esquemas de color.
Además, implementa metadatos C2PA para certificar el origen de las imágenes y la moderación de contenido para prevenir usos inapropiados.
Pero a pesar de todos esos avances, persisten problemas con recortes en imágenes verticales largas, caracteres no latinos y dificultad para editar partes específicas sin afectar otras.
Finalmente, la siguiente es una imagen creada por este nuevo sistema.
