Todo lo que debes saber de las IAs generativas de imágenes

La Inteligencia Artificial generativa permite crear contenido original y creativo, imitando la capacidad humana para generar ideas, arte y texto.

Estamos viviendo unos años de constante evolución tecnológica en los que en cuestión de muy poco tiempo hemos adoptado herramientas, ahora indispensables en nuestro día a día, que hace tan solo unos años ni hubiéramos imaginado que pudieran tener tanto potencial. Un ejemplo de estas evoluciones es la Inteligencia Artificial generativa.

Estos sistemas utilizan algoritmos avanzados para aprender patrones a partir de conjuntos de datos y luego son capaces de generar instancias que se asemejan a las muestras de entrenamiento.

La IA generativa abarca una variedad de enfoques y técnicas para la creación de contenido original, algunas de ellas pueden ser los modelos de Lenguaje Generativos, como Chat-GPT, las Redes Neuronales Generativas Adversarias (GAN), que implica la interacción de dos redes neuronales para mejorar la calidad de la generación, la generación de Música y sonido, que son capaces de componer música original o efectos de sonido realistas, y por último, los modelos de Texto a Imagen, que permiten crear imágenes a través de descripciones de texto.

IAs GENERATIVAS DE IMÁGENES

Las IAs Generativas de imágenes están revolucionando el concepto que teníamos de arte hasta ahora. Este sistema no es solo capaz de replicar imágenes existentes, sino que además puede inventar otras completamente nuevas. Pero a pesar de lo que muchos creen, la IA no es capaz de crear estas imágenes por si sola, sino que lo hace utilizando como base una gran biblioteca con millones de obras de arte ya creadas anteriormente, por lo que su trabajo consiste en combinar esta biblioteca de imágenes con el texto que escribe el usuario para crear obras nuevas nunca vistas antes.

El hecho de que hayan sido entrenadas con obras de artistas sin su permiso ha generado polémica porque estos artistas reclaman una valoración de su obra.

Si podemos considerarlo una revolución es porque puede utilizarla cualquier persona. No es necesario tener conocimientos técnicos, ni ordenadores potentes, basta con un navegador web y el habla natural. El funcionamiento de este tipo de IA es muy sencillo, el usuario introduce mediante un comando de texto con habla natural, también llamado Prompt, la descripción de la imagen que quiere generar. Este Prompt, puede ser desde una frase sencilla a una descripción más detallada y compleja, incluyendo el mayor número de características de la imagen, como por ejemplo, el estilo artístico, la iluminación o colores.

Cuando el usuario escriba el Prompt, el modelo analiza el texto y genera una o varias imágenes que se asemejen a la descripción a través de un decodificador. Cada vez que se envía un Prompt, se genera una imagen desde cero, así que cada vez aparecerá una imagen totalmente diferente, por lo que es imposible que se generen dos imágenes completamente iguales.

MODELOS DE GENERACIÓN DE IMÁGENES

En la actualidad, existen diferentes modelos de generación de imágenes. Hace unos años las IAs nos sorprendían porque podían generar imágenes de elementos muy concretos como caras humanas, de muy buena calidad y de forma rápida, pero les faltaba diversidad, ya que eran entrenadas mayormente con caras, entonces solo se centraban en este tipo de imágenes. Este tipo de modelo se denomina Redes Generativas (GANS).

En cambio, actualmente se trabaja con los modelos de difusión, que permiten una mayor diversidad de patrones, aspectos o detalles, debido a que han sido entrenadas con todas las imágenes que hay en internet y se obtiene una gran calidad en las imágenes generadas. La única desventaja de este modelo es que se necesita algo más de tiempo para que se generen las imágenes, pues es más lenta que la anterior.

Este problema se debe a que, para generar una imagen, lo tiene que hacer a través de varias iteraciones de una misma imagen. A estas iteraciones se las denomina pasos y cada paso es una imagen un poco más nítida que la anterior, entonces en el primer paso está totalmente llena de ruido, el modelo va limpiando este ruido y en la última ya se puede ver la imagen con nitidez. En definitiva, a mayor número de pasos mayor es el tiempo de espera de generación de la imagen.

Ilustración 1 Pasos para la generación de imágenes con el modelo de difusión

Pero durante el año 2023 se han hecho importantes avances y se han desarrollado nuevas técnicas de generación de imágenes en tiempo real, como el LCM-LoRA (Latent Consistency Models), que permiten a los modelos de difusión generar imágenes de manera mucho más rápida, a través de vectores, con una mayor interactividad con la IA, porque permite crear ajustes y manipulaciones de forma instantánea. Estas técnicas todavía cometen ciertos errores, pero es algo que se va puliendo en cuestión de meses.

HERRAMIENTAS PARA EL USO DE LAS IAS GENERATIVAS DE IMÁGENES

Las IAs generativas de imágenes avanzan muy rápido, cada poco tiempo van renovándose y apareciendo nuevas herramientas para que los usuarios las puedan utilizar. En la actualidad, las herramientas que más destacan son, Stable Diffusion, Dall-E 3 y MidJourney.

Stable Diffusion XL es un generador de imágenes Open Source, que permite crear imágenes con alta calidad y variedad. Este generador es una de las herramientas que ha desarrollado Stability.AI y que está dentro de Clipdrop. Aquí nos podemos encontrar con herramientas de edición de imágenes (borrar fondos, cambiar la iluminación de una fotografía, escalar imágenes e incluso sustituir elementos). Además, con la nueva herramienta Stable Diffusion XL Turbo se pueden crear imágenes de forma interactiva, en tiempo real, mientras dibujamos un boceto de nuestra imagen y añadiendo algún Prompt.
Dall-E 3 ha sido desarrollada por OpenAI y está basada en los modelos de lenguaje como GPT. Esta herramienta utiliza el modelo de difusión para poder generar las imágenes y el usuario la puede utilizar a través de Chat GPT-4 utilizando un lenguaje natural. La gran ventaja de que funcione a través de Chat GPT-4 es que cuando se realiza una petición, este se encarga de generar un Prompt eficiente para crear las imágenes que busca el usuario. A pesar de que la herramienta de Chat GPT-4 es de pago, también se puede utilizar de forma gratuita a través del chat de Bing.com.
MidJourney está desarrollada por un laboratorio independiente de investigación. Al igual que Stable Diffusion y Dall-E 3 genera imágenes a través de Prompts, pero con la diferencia de que el medio para generarlas es a través del servicio de mensajería instantánea Discord. Aunque está empezando a funcionar también en web.

También hay otras herramientas conocidas como Adobe Firefly y Leonardo.AI.

Todas estas herramientas funcionan con el modelo de difusión, pudiendo obtener una gran variedad de imágenes con alta calidad, pero todavía algo lentas, por lo que el siguiente paso ha sido utilizar la técnica LCM-Lora, que permiten interactividad pudiendo comunicarte con la IA a través de la combinación de un boceto y un Prompt de la imagen que se quiera generar. Algún ejemplo de las herramientas que lo permiten son Stable Diffusion XL Turbo y Krea.ia

Ilustración 2 Ejemplo de uso de una IA con la técnica LCM-Lora

USOS DE LAS IMÁGENES GENERADAS

Las imágenes generadas por Inteligencia Artificial pueden tener una diversidad de usos, desde un uso más artístico creando obras de arte originales y únicas inspiradas en diferentes estilos, épocas o artistas, en la generación de contenido con diferentes fines, como el marketing, la educación, el entretenimiento o la comunicación, hasta la mejora y restauración de imágenes, pudiendo mejorar la calidad y resolución de imágenes ya existentes, así como restaurar o colorear imágenes antiguas o dañadas.

En ITCL las IAs generativas de imágenes son una gran herramienta, permitiendo ilustrar algunos de nuestros proyectos en desarrollo o aquellos que se van a realizar y así hacer una explicación visual de estos.

Ilustración 3 Imágenes generadas por IA para ilustrar un proyecto

A pesar de que la IA abre un mundo de posibilidades, hay que tener en cuenta los posibles riesgos y desafíos que plantea esta tecnología, como la creación de noticias falsas, que pueden usarse para engañar o manipular a las personas, por lo que se está creando una legislación para controlarla y además, ya hay ciertas acciones que no se pueden realizar, como generar imágenes de contenido sexual o violencia. Además, también se han censurado nombres de celebridades.

Las IAs generativas de imágenes todavía es algo muy reciente pero que está avanzando a pasos agigantados, en cuestión de meses se ha producido una evolución inimaginable y todavía estamos en ese camino, por lo que habrá que estar preparado para todos estos cambios. De momento, ya se está empezando a aplicar en otros ámbitos como, en modelos 3D, animaciones, audio y video.