Forbes Argentina
Generaci�n de manos ideogram
Innovacion

Las im�genes generadas por IA y una cuenta pendiente: por qu� les cuesta tanto hacer manos realistas

Pablo Wahnon

Share

Una de las herramietas de IA generativas m�s utilizadas es la generaci�n de im�genes. Sin embargo, y pese a los avances, a�n tienen dificultades con las manos. �Qu� sucede?

25 Junio de 2024 15.50

La inteligencia artificial generativa salt� a la fama desde dos frentes: uno de ellos popularizado a partir del ChatGPT, tuvo que ver con lograr modelizar el lenguaje para que estos sistemas comprendan el lenguaje natural y entreguen respuestas elaboradas a partir de los patrones que se forman en sus redes neuronales. Se entrenaron con grandes cantidades de texto.�

El otro frente fue el de realizar entrenamientos a partir de im�genes. En este caso el objetivo es a partir de una descripci�n en texto que da el usuario la IA nos da una imagen. Pero al usar estos sistemas pronto aparece un problema: se logran im�genes muy buenas pero los errores m�s imporantes est�n en las manos: es com�n verlas con 4 o 6 dedos u otras alteraciones.�

En ambos casos el principio es el mismo se trata de entrenar los sistemas con muchos datos que van alimentando el LLM (modelo de lenguaje grande, aunque una mejor traducci�n ser�a modelo de lenguaje extendido, ya que lo que hace el modelo es partir el lenguajes muchas subpart�tculas). �Pero hay diferencias en sus arquitecturas. ChatGPT, Gemini, y los dem�s utiliza principalmente redes neuronales recurrentes (RNNs), que son buenas para procesar secuencias de datos como el lenguaje. En cambio los generadores de im�genes se basan en redes neuronales convolucionales (CNNs), que son buenas para procesar im�genes y reconocer patrones espaciales.

Y resulta que encontrar los patrones de las manos es desafiante. Las manos humanas contienen una ingenier�a maravillosa. Poseen una estructura compleja con 27 huesos, 39 articulaciones y numerosos m�sculos, tendones y ligamentos que les permiten realizar una amplia gama de movimientos y acciones.

Alicia rodeada por manos - Ideogram
Alicia rodeada por manos - Ideogram

Sin embargo, esta complejidad representa un desaf�o importante para las IAs generativas de im�genes. A diferencia de otras partes del cuerpo como la cara o el torso, las manos presentan una topolog�a m�s cambiante, es decir, su forma y estructura pueden variar significativamente dependiendo de la pose, el gesto o la acci�n que se est� realizando.

Adem�s, las manos suelen ser m�s peque�as y tener m�s detalles que otras partes del cuerpo, lo que dificulta que los modelos de IA aprendan a representarlas con precisi�n. Las im�genes con las que son entrenadas las IA no parecen otorgarlas la suficiente informaci�n como para que encuentren los patrones adecuados para su representaci�n.�

Por estas razones, las IAs generativas de im�genes suelen tener m�s dificultades para generar im�genes de manos realistas que de otras partes del cuerpo. Las manos pueden aparecer con dedos deformados, proporciones incorrectas o poses extra�as. Cosas que son evidentes para nosotros no lo son para ellas.�

A pesar de estos desaf�os, los investigadores est�n trabajando constantemente para mejorar la capacidad de las IAs para generar im�genes de manos realistas. Se est�n desarrollando nuevas t�cnicas e investigaciones para abordar los problemas mencionados, como el uso de conjuntos de datos m�s grandes y diversos, el desarrollo de algoritmos espec�ficos para las manos y la incorporaci�n de conocimientos anat�micos en los modelos de IA. El problema de la manos muestra la necesidad de una �orquestaci�n de la IA� donde varios modelos de IA trabajan en conjunto.

Joven manos de tijeras / Ideogram
Joven manos de tijeras / Ideogram

En la actualidad, una de las IA que se destacan por su versatilidad en la generaci�n de im�genes es Ideogram. Tambi�n tiene errores pero muchas veces logra representar las manos de una forma aceptable. En general estas IA dan cuatro im�genes por cada pedido que realiza el usuario, con la idea de que al menos una se acerque a lo que necesita.�Hay buena chances en este caso que al menos una de esas im�genes tenga im�genes aceptables.�

Otro tema que no deja de ser notable es que aunque el usuario repita su pedido, por ejemplo: �una imagen de un �rbol de manzanas con mariposas�, el sistema generar� im�genes diferentes. Ya no �sabe� c�mo logr� hacer la imagen anterior. Las redes neuronales no son como los sistemas convencionales. Son sistemas que entregan una respuesta y puede bien suceder que no la repitan. A no ser que los patrones est�n lo suficientemente reforzados, como sucede con una pregunta como cu�nto es dos mas dos.

Sin embargo la mayor�a de las veces los patrones logran hacer algo general, como un �rbol, mas que algo bien particular como para repertir determinado �rbol. Es por eso que se requiere que el usuario agregue mucho contexto y detalles para que los resultados se parezcan.�El caso de las im�genes por el tipo de redes neuronales con las que trabajan las diferencias se hacen m�s notbles.�

El avance de las IA es sin dudas sorprendente, y hasta sorprendi� a sus propios creadores. Nadie estaba pensando seriamente en que la t�cnica de los Transformers revelada en el m�tico paper por 8 investigadores de Google llevara la tecnolog�a hasta estas tierras de una inteligencia artificial generativa. Se pretend�a traducir texto no crear una especie de criatura digital inteligente. Pero el tiempo pas�, Google no pudo retener ni a uno de los investigadores que realizaron el descubrimiento basal de la IA que se fueron a fundar sus propias starups. Y, se solucionaron much�simos problemas, sin embargo las manos, nuestras manos, tienen algo especial. Las manos m�gicas te dir�n la forma de aprender bonitos trucos que de magia son… y que la IA a�n no puede aprender.�


loading next article
10