Por Jorge Gutiérrez
Un misterioso modelo de inteligencia artificial llamado “Nano-banana” comenzó a destacar en pruebas de habilidad y generó especulaciones sobre su origen.
Finalmente, se confirmó que se trataba de un nuevo desarrollo de Google: Gemini 2.5 Flash Image, una herramienta que no solo mejora la coherencia en la generación de imágenes, sino que también inaugura un revolucionario paradigma de edición conversacional, con esta innovación, el usuario puede “dialogar” con una imagen y pedir ajustes como si diera instrucciones a un diseñador humano.
El modelo ataca dos frentes al mismo tiempo: compite con generadores puros como Midjourney y desafía a programas de edición consolidados como Photoshop, su mayor avance está en la coherencia visual, problemas habituales en otros sistemas, como deformaciones, cambios en los protagonistas o inconsistencias de iluminación y perspectiva, se resuelven gracias a una integración más profunda entre las distintas partes de la imagen.
La interacción también se vuelve más simple y natural, en lugar de reiniciar cada vez, los usuarios pueden perfeccionar una misma imagen con órdenes sucesivas en lenguaje cotidiano.
Instrucciones como “haz el cielo más dramático”, “añade un perro en el banco” o “cambia el coche a rojo” son ejecutables de manera iterativa, esta dinámica elimina gran parte de la fricción del proceso creativo y estará disponible desde hoy en servicios de Google, incluida la app oficial de Gemini, además de ofrecerse vía API para desarrolladores.
Gemini 2.5 Flash Image permite seleccionar áreas específicas de una imagen, eliminar objetos, cambiar fondos o añadir elementos nuevos que respetan perspectiva, sombras e iluminación. El modelo también combina imágenes y logra un fotorrealismo avanzado, con mejoras notables en texturas, rostros humanos y manos, históricamente puntos débiles de la IA.
