No soy matemático ni se me dan bien las matemáticas, pero creo que soy capaz de entender algunas limitaciones “físicas” un poco por encima de la media. Lo digo con honesta humildad, se me da bien la lógica y el pensamiento visual (y, por otro lado, muy mal la aritmética y el cálculo).
Llevo un tiempo pensando sobre las cosas que una IA puede hacer, las que no puede hacer, pero quizás llegue a hacer algún día, y las que no podrá hacer jamás, por razones lingüísticas, o matemáticas, o de diseño, o como lo queráis llamar, que nada tienen que ver con su “nivel” de desarrollo tecnológico.
En mi cruzada anti-hype de barra de bar, me he referido a los LLM, al “razonamiento”, a la “destilación”, al problema del pulpo de la profesora Emily M. Bender, a lo de Deepseek y tal, pero he tratado menos otros tipos de IA generativa: la generación de imágenes (GAN y Diffusion principalmente, aunque creo que ya no importa demasiado, porque ya todas usan soluciones mixtas y muy complicadas de entender). Pero a lo que voy, creo que la idea general que expongo cuando hablo de las limitaciones de los chatbots (LLM) son también aplicables a estas últimas. Y si alguien me quiere contradecir, encantado de escuchar y aprender.
Dice una sabia expresión popular: De donde no hay no se puede sacar. Es un principio básico. Si entrenas una IA para distinguir entre perros y gatos, nunca jamás llegará a identificar un elefante. En los últimos años han aparecido “trucos” realmente ingeniosos para afinar estos problemas académicos, pero el “de donde no hay no se puede sacar” sigue y seguirá siendo impepinable. Y es posible que el aprendizaje profundo (deep learning) haya consumido ya TODO su campo de entrenamiento (incluidas partes con copyright y privadas, ilegalmente sustraídas) y eso es un problemón académico y bursátil importante.

Os dejo un par de videos del profesor Michael Pound que lo explica muy bien:
– Has Generative AI Already Peaked? (2024) https://www.youtube.com/watch?v=dDUC-LqVrPU.
– How AI Image Generators Work (2022): https://www.youtube.com/watch?v=1CIpzeNxIhU
Por resumir, si ChatGPT quiere seguir mejorando como poeta —y mientras no se descubra una civilización alienígena con larga tradición literaria que aún no se haya robado escrapeado—, solo podrá seguir entrenándose leyendo “poesía artificial” generada por ella misma. La literatura humana, de todos los tiempos, en todos los idiomas, la buena y la mala, ya la ha “aprendido” toda. Claro, este proceso es catabólico, (va degradando la calidad de sus fuentes de forma iterativa) que en poesía quizás hasta produce algo chulo... pero en física o en medicina... estamos hablando de que alucine con planos dimensionales que nadie será capaz de refutar o validar, o de investigar curas para enfermedades que, literalmente, no existen.
Volviendo a la generación de imágenes. Como todo diseñador gráfico, me he dedicado y me dedico al “retoque de fotos familiares” como parte de mis tareas domésticas no remuneradas. He borrado fondos, blanqueado dientes y añadido a personas en fotos de grupo. (Nota para millennials: Antes de la normalización del selfi, era habitual que quien tomara la foto pidiese cambio, por lo que tenías dos fotos casi idénticas, con una persona ausente en cada una de ellas). He realizado montajes tan adorables como “creepys”, como situar un bebé en la falda de una abuela, demasiado mayor para viajar a abrazar a su nieta recién nacida, y que recibió el montaje en forma de regalo. El objeto, carente de toda veracidad, valió la pena. Hago esta introducción para evitar el charco de lo que es “real” y lo que no. Para mí, la fotografía familiar es un género artístico más parecido a la pintura de cámara del siglo XVIII que al fotoperiodismo, una forma de expresión colectiva y social que moldea la realidad a su antojo.
Hoy me ha tocado un clásico, una imagen con malísima resolución, y me he puesto a probar las soluciones tecno-mágicas de ampliación de imágenes. Para ser honestos, desde la última vez que lo probé ha mejorado mucho. Muchísimo. Ya no se inventa manos de seis dedos.
Pero al fin y al cabo, el problema es el mismo, y tiene difícil (o imposible) solución. Cuando la imagen inicial es de una persona que conoces bien (en este caso, mi sobrina) notas como que le cambia el gesto. Algo inherentemente humano desaparece de la foto “mejorada”. ¿Contendrán las fotos el espíritu de las personas retratadas? ¿Será que se pierde el aura que enunciaba Walter Benjamin con cada reproducción? Lo que sea: La sonrisa, los dientes... en la imagen ampliada, ya no es ella. Luego, no me sirve.

Y aquí es donde vuelvo a recordar lo importante que es diferenciar entre el “dataset” y el “prompt” y eso de que “de donde no hay no se puede sacar”.
El resultado vale como foto “de stock” de una persona anónima, ya que es un collage de otras caras, o para ser precisos, DE TODAS LAS CARAS DE TODAS LAS NIÑAS CAUCÁSICAS QUE HAY EN INTERNET. Por muy foto-realista y convincente que sea el resultado, no está de más recordar que es más una pintura que una foto. Por eso “dibujan” tan bien la ropa y los zapatos, los animales o personas anónimas, pero fallan con los retratos. El posible “peak” de la IA generativa y el “zero-shot” son problemas muy interesantes para lxs académicxs (y muy peligrosos para lxs tecno-flipadxs que inviertan sus ahorros en fantasías futuristas).
La disposición de los dientes es algo tan personal como una huella dactilar, tanto que se usa en la identificación de cuerpos, y afecta muchísimo a la expresión de una cara humana... ¿Cómo podría jamás acertar la sonrisa de mi sobrina si no la conoce? Lo siento, pero de momento me resisto a que mi madre enmarque en su salón la cara de una desconocida. Y sí, podríamos entrenar a la IA con muchas fotos de mi sobrina, claro que sí. Pero si mi madre tuviese tantas fotos de su nieta en buena resolución... ¿Necesitaría ampliar las de mala calidad? Ya te digo yo, sin ser matemático, que no.
PD. Otro video reciente que explica el Peak Data (posterior a este texto): https://www.youtube.com/watch?v=IOh0SL3C4
Dame un LikeFreely | Antigona i els Fenicis es el blog personal de Pau Kokura con licencia CC BY-NC-SA 4.0 | Escrito con Inteligencia Animal | Contacta en kokura.design