José Ramón Marcaida Profile picture
Historian of science & art @CSIC Instituto de Historia | Research interests: scientific images / natural history / prints / practical knowledge / techniques

Aug 11, 2022, 119 tweets

Como investigador especializado en la historia de las imágenes científicas estoy siguiendo con mucho interés la evolución de los programas de generación de imágenes por #InteligenciaArtificial.

En este HILO voy a ir recopilando algunas reflexiones sobre el tema 👇

Por cierto, la imagen de arriba NO está generada mediante #AI. Es un dibujo atribuido al artista Jacopo Ligozzi (1547-1627), perteneciente al @museodelprado

Pero creo que captura bien el elemento "quimérico" de esta nueva y fascinante cultural visual

🔗 museodelprado.es/coleccion/obra…

Cuestiones que me interesa explorar:

1⃣ El lenguaje. Al tratarse de programas “text to image”, el input textual es clave. Me interesa cómo estos programas responden al lenguaje que empleamos los historiadores a la hora de estudiar las imágenes y los temas que representan. *

*En casi todos los ejemplos que voy a mostrar he usado el inglés como lenguaje principal, pero también estoy interesado en cómo estos programas funcionan en otros idiomas.

2⃣ Las fuentes visuales de las que se sirven estos programas. ¿De dónde extraen la información visual, y según qué criterios la procesan? Soy consciente de que este tema es especialmente relevante en el caso de artistas en activo y obras sujetas a ©️

3⃣ Los enfoques y sesgos. Me interesa mucho ver hasta qué punto estos programas imitan y/o reproducen determinados patrones a la hora de procesar este tipo de materiales (desde tópicos y lugares comunes en estudios especializados a otros sesgos y enfoques)

Un asunto que quiero explorar es cómo estos programas responden a la hora de generar imágenes relacionadas con la historia natural de la edad moderna y, en concreto, cómo gestionan el tema de los periodos y las técnicas.

🧵+📷 de pruebas realizadas con #Craiyon y #Dalle 👇

En general, observamos que los programas tienden a asociar mayor calidad y precisión de imagen a medida que se avanza en el tiempo, reproduciendo así un lugar común en los estudios de las imágenes naturalistas - un lugar común sujeto a constante revisión y crítica.

Los programas tienden también a asignar mayor calidad de imagen a los resultados asociados a la técnica del grabado en hueco (en este caso, al buril) frente al grabado en relieve (en este caso, entalladura) - otro lugar común aunque, de nuevo, hay muchos matices a tener en cuenta

Sin embargo, en el caso de los dibujos a color, observamos una gran calidad en las imágenes asociadas al s. XVI (también para el s. XVII). Esto refleja el contraste, reconocido y comentado entonces, entre la calidad de algunas de las imágenes dibujadas y las imágenes impresas.

La imagen de arriba es otra obra (¡magnífica!) de Ligozzi, perteneciente a la colección de la National Gallery of Art de Washington @ngadc

🔗 nga.gov/collection/art…

El tipo de imágenes que he mostrado antes sugiere que los programas están haciendo uso de fuentes visuales de época fáciles de encontrar hoy en día gracias a los proyectos de digitalización (como el ejemplo de Ligozzi).

De hecho, el caso de Ligozzi, uno de los artistas más importantes en el área de la historia natural ilustrada de este periodo, es un buen ejemplo.

Los programas (especialmente #Craiyon, pero también #DALLE) saben reconocer aspectos del estilo asociado con la obra de Ligozzi.

Según el motivo a representar vemos que los programas arrojan resultados muy desiguales. En algunos casos se trata de motivos para los que no existe un prototipo de Ligozzi claro. En otros, el programa parece tener complicaciones con el tema en sí. Aquí tenemos un ejemplo:

Jugando con expresiones como "from life" ("ad vivum", "del natural": una manera muy común de cualificar las imágenes naturalistas en este periodo), o variando el descriptor de imagen se aprecian resultados algo diferentes:

Como decía, los resultados son muy desiguales...

En otros casos, es fácil de detectar el tipo de fuentes empleadas por el programa (en este caso #Craiyon). Aunque el "proceso" no está tan claro. Por ejemplo, en el caso de esta imagen de un topo...

... una de las imágenes generadas está claramente basada en el dibujo que os mostraba antes:

Sin embargo, #Craiyon no usa esta imagen como "fuente" (al menos no de manera tan explícita) cuando le pido generar una imagen de ese mismo animal:

Como decía, el programa consigue capturar aspectos del estilo de Ligozzi gracias a que muchos "modelos" están disponibles en versiones digitalizadas en internet.

En otros casos, el programa sabe intepretar el input textual (incluida la referencia a Ligozzi) y la asocia a modelos visuales disponibles. Aquí, por ejemplo, #Craiyon identifica "bird of paradise" con el pájaro "ave del paraíso", no con la planta...

Aquí #Craiyon parece saber identificar "camelopardus" (expresión de la época):

Pero, como decía, hay mucha variación en los resultados:

En todo caso, haciendo un poco de "reverse engineering" se puede jugar a deducir el tipo de fuentes de las que se sirven los programas.

Claro, ahí entra en juego otro de los temas que me interesa explorar en relación con estos programas:

4⃣El conocimiento experto del usuario

Es decir, la forma en que el "input" que proporciona el usuario "humano" contribuye al desarrollo del programa mismo - si es que hay tal contribución (sospecho que sí).

Por ejemplo, a la hora de "editar" las imágenes generadas (en el caso de #DALLE) con el fin de generar nuevas imágenes. O la hora de formular el comando textual, por ejemplo al incluir y dar prominencia a ciertas palabras clave, o al introducir matices en términos de lenguaje.

Relacionado con esto, me pregunto hasta qué punto las propias imágenes generadas por estos programas (como, por ejemplo las que estoy generando yo mismo y subiendo aquí) pueden influir en el corpus visual disponible para otros propósitos (como por ejemplo, la investigación).

Pasado un tiempo, y a medida que los programas de #AI logren generar imágenes más avanzadas, y los usuarios aprendamos a idear comandos más ajustados y sofisticados, es posible que las imágenes generadas sean indistinguibles de las ofrecidas por las fuentes históricas.

Es por tanto fundamental documentar estos procesos de creación de contenido visual, y seguir desarrollando el conocimiento experto para tratar con estos materiales.

Más ejemplos de imágenes naturalistas, esta vez haciendo un guiño a uno de los corpus de imágenes más espectaculares de la historia de la ciencia: los recopilados durante la Real Expedición Botánica del Nuevo Reino de Granada (1783-1816), dirigida por José Celestino Mutis.

El ejemplo de la #passiflora no es casual. Como investigador he trabajado mucho sobre la iconografía de esta planta y, sobre todo, de su flor, la flor de la Pasión.

Pero es que las imágenes de las passifloras de la expedición Mutis constituyen uno de los conjuntos visuales más espectaculares del corpus.

Aquí el 🔗 a la web del @RJBOTANICO @Biblioteca_RJB dedicada a la expedición (y fuente, casi seguro, para #Craiyon)
mutis.rjb.csic.es/paginas/index.…

Experimento breve sobre visualización de técnicas de imagen impresa (entalladura y grabado en hueco) usando #craiyonAI #midjourney y #dalle

El experimento incluye una búsqueda un poco absurda, pero divertida (y fallida): reproducir el taco empleado para imprimir el 🦏 de Durero.

La imagen 👆 la he generado con #midjourney, usando el texto "A macro lens photograph of the relief lines in a sixteenth-century wooden printing block of a prickly pear".

El estudio de los tacos está atrayendo la atención de muchos investigadores (¡me incluyo!).

Otro ejemplo:

La verdad es que empecé el experimento con bastante escepticismo. ¿Serían capaces los programas de #AI de captar la "magia" de la materialidad de una imagen impresa y/o de los materiales empleados para realizarla?

Los resultados preliminares de este experimento no me sacaron de mi escepticismo - aunque algunas imágenes tienen su interés y atractivo, y recuerdan a las reproducciones de tacos que (cada vez más) se están haciendo disponibles online.

Los intentos por captar los detalles de una imagen impresa dieron resultados muy desiguales. En el caso de la #entalladura probé con "prompts" más o menos informativos:

En el caso del grabado en hueco, los primeros resultados fueron similares (es decir, bastante irregulares y poco convincentes).

Al hacer hincapié en las líneas, algunas de las imágenes generadas incluyen detalles en los que se atisba algún elemento interesante, como en el caso de la imagen ampliada de la derecha (aunque la definición, como en el resto de casos, deja mucho que desear).

En comparación con las imágenes naturalistas del otro día, en estos ejemplos la calidad y definición (en términos generales) es muy inferior, y, desde luego, en nada comparable a las imágenes digitalizadas de estampas reales.

Sobre la comparación con el objeto real ni comento.

Volviendo al asunto de los tacos, me preguntaba si estos programas, usando los prompts adecuados, podrían captar algo del componente material y visual de estos objetos (de por sí muy difíciles de "visualizar").

Ahí es donde decidí experimentar un poco con esta imagen:

La estampa del rinoceronte de Durero es una de las imágenes más reconocibles de la edad moderna - todo un referente para el estudio de la imagen científica, pero también la imagen impresa en general. He usado la versión digitalizada del @metmuseum:

metmuseum.org/art/collection…

El otro día hablaba de cómo estos programas de #AI claramente son capaces de reconocer el "estilo" de un determinado artista (uso comillas porque la cuestión de los estilos es muy compleja).

En el caso de la estampa del rinoceronte de Durero, nos encontramos no sólo ante una imagen asociada a un artista reconocido y reconocible; se trata de una imagen muy reproducida y disponible como fuente en numerosas versiones.

Aquí un/el dibujo preparatorio @britishmuseum

El otro día, en colaboración con @DennisMHansen, exploramos hasta qué punto el programa #Dalle reconoce la "autoridad" visual del prototipo de Durero a la hora de generar imágenes sobre este tema. Aquí algunos resultados:

Como se puede apreciar, las imágenes generadas apenas recogen aspectos del modelo de Durero. Lo mismo sucede con aspectos que tienen que ver con la técnica empleada por Durero, la entalladura.

Usando #craiyon, en cambio, observamos cómo el programa sí que sabe captar aspectos del modelo de Durero. Sobre todo a la hora de experimentar con imágenes no tanto de la estampa como del taco empleado para realizarla.

Aquí van algunas pruebas usando diferentes iteraciones:

La mayoría de estas pruebas dan resultados bastante poco satisfactorios, pero es interesante observar cómo el programa procesa este tipo de instrucciones.

Aquí un resultado "menos malo" que la mayoría:

Aquí os muestro otros ejemplos, que dan muestra de lo difícil que resulta este problema para el programa.

Nada de lo que estos resultados muestran se acerca a la finura y detalle característicos de las estampas de Durero o de cualquier artista de la época.

Aquí os muestro el mejor resultado de los 4 que obtuve usando #midjourney - resultado directo, sin retoques ni nada.

Este programa, como #Dalle, permite retocar los resultados y trabajar sobre ellos, pero ahora mismo no puedo hacerlo, entre otros motivos, por el coste que supone

Me imagino que con mucho tiempo y paciencia, y usando otras herramientas de edición, se podrían refinar muchísimo los resultados y obtener algo "parecido" al taco que se empleó para imprimir esta imagen tan singular.

¡Lo dejo como reto para otros!

Yo, mientras, seguiré experimentado con otros temas. Aquí va un avance del tipo de materiales que quiero explorar, y que se corresponden con el tipo de materiales históricos sobre los que estoy investigando en la actualidad:

Sin olvidarme, por supuesto, de mis queridas #avesdelparaíso - otro ejemplo bueno para explorar la calidad de los resultados generados por #AI, al tratarse de imágenes llenas de detalles, que exigen una gran finura y habilidad por parte del grabador.

Dos ejemplos muy diferentes de imágenes de #avesdelparaíso generadas mediante #midjourney (izq) y #craiyon (dcha), en este caso "según el estilo" de una de las naturalistas e ilustradoras más impresionantes de todos los tiempos: Maria Sibylla Merian (1647-1717)

Breve serie de imágenes (históricas y #AI) sobre "gabinetes de curiosidades", uno de mis temas de investigación favoritos.

Las fuentes visuales históricas que representan estos gabinetes de "curiosidades" o "maravillas" (Wunderkammer) son una maravilla en sí mismas.

La imagen de 👆 es una de la representaciones más conocidas y estudiadas: muestra la colección de Ferrante Imperato y fue publicada como parte de su Dell'Historia Naturale (1599).

Aquí 👇otra famosa imagen: la colección de Ole Worm, con la que se abre su Museum Wormianum (1654)

Como veremos, este tipo de imágenes servirán de fuente y modelo para los programas de #AI.

Tenía curiosidad por ver si la #IA conectaba con el género de pinturas que muestran galerías de cuadros, donde predomina el juego visual del "cuadro dentro del cuadro".

Estas obras captan aspectos muy interesantes de la cultura del coleccionismo europea de la edad moderna...

... como el interés por la acumulación y yuxtaposición de objetos curiosos o el gusto por la factura exquisita.

La obra de 👆 es de Frans Francken el Joven, uno de los primeros pintores especializados en este género pictórico (1619, Royal Museum of Fine Arts, Amberes)

Otro ejemplo es el cuadro del @museodelprado 'Las Ciencias y las Artes', una obra que en su día me ayudó mucho a pensar aspectos clave de mi investigación sobre arte y ciencia en el siglo XVII, y que aún hoy me sigue sirviendo de inspiración.

🔗 museodelprado.es/coleccion/obra…

Por no hablar de la muy conocida serie dedicada a los sentidos, de Jan Brueghel el Viejo y Peter Paul Rubens, también en el @museodelprado

En imagen, 'La vista'
🔗 museodelprado.es/coleccion/obra…

Aquí algunos de los resultados obtenidos con #craiyon.

He jugado con diferentes textos, con idea de ver cómo el programa capta y expresa este tipo de matices. Por ejemplo, el nombre de estas colecciones, aspectos/categorías temporales, estilos, o técnicas de imagen.

Como señalaba antes, en la mayoría de los casos el programa parece servirse de modelos "históricos", fácilmente localizables gracias a los repositorios digitales y a la abundante literatura especializada sobre este tema.

Este interesante constatar el peso de la palabra "cabinet" en los prompts, que nos recuerda la importancia de estos muebles y otras formas de conservar y exponer los objetos en las colecciones (e.g. kunstschrank) - un tema que está recibiendo mucha atención entre los estudiosos👇

Aquí otros ejemplos para explorar las correlaciones con los grabados que mostraba antes.

El "aire de familia" se percibe fácilmente - aunque ninguna de las imágenes generadas exhibe el nivel de detalle y calidad que caracteriza a las estampas de las fuentes históricas.

Usando el programa #midjourney (primera iteración) obtuve este grupo de imágenes, en las que se percibe, de nuevo, cierta familiaridad con algunos de los elementos característicos de los gabinetes de curiosidades, por ejemplo la disposición de los objetos.

Detalle ampliado y con algo más de resolución de una imagen generada por #midjourney de un "gabinete de curiosidades del siglo XVI" (este fue el "prompt", en inglés).

El resultado es sugerente en su conjunto, y algunos detalles recuerdan a motivos habituales de estas colecciones, como las ramas de coral y otros animales disecados.

Ahora bien, la imagen tiene mucho de trampantojo, en el sentido de que muestra cosas sin mostrarlas realmente.

Otro elemento que, como historiador de la ciencia, me llama mucho la atención es la presencia de recipientes y urnas de cristal (usados como instrumentos de preservación y exposición) en algunas de estas imágenes.

En los siglos XVI y XVII los "gabinetes de curiosidades" y otro tipo de colecciones se basaban principalmente (aunque no exclusivamente) en objetos preservados "en seco".

Fijaos en la imagen de la colección de Worm:

Las técnicas para preservar y exhibir especímenes en líquido eran conocidas por boticarios, alquimistas y comerciantes, entre otros.

⚗️ Es muy interesante la relación etimológica entre el adjetivo "hermético" y la figura de Hermes Trismegistus @RAEinforma

El despliegue de objetos en urnas y recipientes de cristal es un motivo frecuente, asociado a culturas de coleccionismo y de práctica científica (como la anatomía) algo posteriores

Así pues, los programas de #IA se sirven también de imágenes de gabinetes y museos más recientes.

Como en otros casos, los resultados generados por los programas de #AI distan mucho del tipo de imágenes que conservamos de los gabinetes y colecciones de la edad moderna.

Aunque, como he recalcado otras veces, mis "tests" son muy básicos y buscan sólo una primera impresión.

Para el caso de los "cuadros de cuadros" y galerías de pinturas, el tema merece una sesión aparte.

Aquí os muestro una primera prueba, en la que muchos reconoceréis indicios de motivos y detalles característicos de este (maravilloso) género pictórico.

Breve sección de prueba dedicada a explorar la versión beta del programa DreamStudio (#stablediffusion).

Usaré el mismo tipo de comandos ("prompts") que he usado con otros programas (ver más arriba en el 🧵👆).

Para empezar: una #entalladura del siglo XVI de un tucán

De primeras, salta la vista la diferencia con respecto al tipo de imágenes generadas con #Dalle o #Craiyon.

Me ha sorprendido sobre todo el color (y la variedad de colores). Creo recordar que es la primera vez que un programa responde a este comando e incluye color.

Aquí un segundo ejemplo, generado con un texto prácticamente igual, pero quizás más "inteligible" para el programa, pues, a diferencia del primer caso, aquí la imagen sí capta el "aire de familia" de una entalladura de temática de historia natural característica del siglo XVI

Ambas imágenes, a pesar de las diferencias con respecto a las fuentes visuales históricas, contienen detalles interesantes que tienen que ver con el acabado y la composición.

El segundo ejemplo me resulta más convincente e interesante, por ejemplo por el fondo o la textura.

Al cambiar de siglo (del XVI al XVII), pero manteniendo la técnica (entalladura), la imagen resultante presenta algunos detalles y matices interesantes, pero no supone un cambio significativo.

Ahora bien, al cambiar la técnica (a grabado en hueco / engraving), se advierte un cambio de estilo interesante, similar al que advertimos en otras imágenes anteriores: la imagen gana en definición y adquiere un aire más naturalista (a pesar de sus claras limitaciones).

Está claro que la clave está en el input de texto, y en el modo en que el programa traduce visualmente estos "prompts".

Aquí un último ejemplo de lo complicado que puede resultar este proceso, incluso en el caso de referentes visuales tan conocidos como Maria Sibylla Merian:

Estoy seguro de que echando un vistazo a la imagen generada los que estéis algo familiarizados con la obra de esta naturalista y artista tan singular podréis deducir el contenido de mi texto.

En fin, ¡seguiré experimentando #stablediffusion!

Nueva sección dedicada al programa #DreamStudio de #StableDiffusion

La idea, como he ido explorando en este 🧵, es observar la relación entre este tipo de imágenes y las fuentes visuales históricas de la #historia de la #ciencia.

Comienzo con una serie de imágenes de historia natural, para comparar este programa con otros disponibles (#Dalle, #Craiyon...)

Uno de las criaturas que más atención recibe en la historia natural de la Edad Moderna es el armadillo.

Tanto la imagen de 👆 como la de 👇han sido generadas por #DreamStudio de #StableDiffusion usando el texto ("prompt"):

"A sixteenth-century coloured drawing of an armadillo".

En ambos casos, el resultado es bastante pobre, hasta el punto de que cuesta reconocer al animal en cuestión.

Si comparamos con #craiyon (usando el mismo texto), la diferencia es importante:

La diferencia con los resultados generados por #Dalle es también notable:

El cambio de técnica, de dibujo a color a grabado en madera (entalladura), genera una imagen en la que, de nuevo, el animal es difícilmente reconocible.

Ahora bien, me gusta el modo en que #stablediffusion imita la textura y el parecido con las imágenes impresas de esta época.

Quise ver si el programa respondía mejor al añadir la expresión "del natural" ("from life") al prompt. Como ya he señalado en este 🧵 esta expresión (e.g. "ad vivum") servía para añadir credibilidad a las imágenes naturalistas.

Aquí el primer resultado de #stablediffusion:

El resultado es significativamente más interesante.

La imagen gana en parecido, aunque el armadillo recuerda más a las criaturas monstruosas de los mapas de esta época.

De la primera imagen generada por #stablediffusion me gusta el acabado del dibujo, sobre todo el fondo, que se aproxima bastante al de las fuentes históricas.

La segunda imagen generada (pedí generar dos a la vez) es, sin embargo, mucho menos convincente (aún):

Siguiendo con la técnica del dibujo a color, y manteniendo la expresión "from life", probé con la representación de un rinoceronte.

Este es el primer resultado generado por #stablediffusion:

La imagen parece más bien una imagen impresa y coloreada después - una práctica muy habitual en esta época, en el caso de ediciones "especiales" para clientes destacados.

Me gusta el hecho de que el programa haya incluido detalles en el fondo, aunque falta definición.

La segunda imagen es bien diferente en cuanto a la composición y la forma de capturar aspectos del animal como la fisionomía o el color de la piel.

Hay, de nuevo, detalles que se aproximan algo a las fuentes históricas, como la representación de los pliegues o el sombreado.

Probé también con las #avesdelparaíso y, como ya me había sucedido como #midjourney, el programa #stablediffusion interpreta "bird of paradise" como flor y no como ave.

En ambos casos las imágenes contienen detalles que recuerdan el estilo de las fuentes históricas, como por ejemplo (en el caso de la segunda imagen 👇) la inclusión de esbozos sin color a modo de "pruebas" inconclusas.

Aquí, como referencia, incluyo las imágenes generadas con #midjourney "al estilo de Maria Sibylla Merian"

Ante estos resultados, decidí seguir probando con la generación de imágenes de historia natural del siglo XVI, pero incluyendo el nombre del artista en el prompt.

Por comparar con los otros programas, utilicé la figura de Jacopo Ligozzi otra vez 👇

Dibujo a color de un mapache por Jacopo Ligozzi, generado por #DreamStudio #StableDiffusion.

La calidad de la ilustración es notable. Destaca el modo en que captura la textura del pelaje, así como los detalles del rostro.

La composición y el acabado son interesantes, aunque la imagen tiene un aire de "retrato fotográfico" que no se corresponde con el estilo de Ligozzi.

Pedí al programa que generara 4 imágenes en total, y aquí os muestro las otras tres.

La calidad, como veis, es menor. Aunque hay algunos detalles (mínimos detalles) que se aproximan al estilo de las fuentes de época.

Volviendo la primera imagen del mapache de Ligozzi, está claro que ejemplos como este demuestran el enorme potencial de programas como #stablediffusion a la hora de generar imágenes de gran calidad.

Pero queda mucho por explorar y cuestionar ...

Sigue la avalancha de novedades sobre programas #IA.

Hay cosas verdaderamente impresionantes. También hay muchísimo ruido (y pocas nueces)

Gran parte de los resultados tiene un aire de familia que cansa un poco.

Una de las claves de todo esto: saber discriminar.

¡Seguimos!

Share this Scrolly Tale with your friends.

A Scrolly Tale is a new way to read Twitter threads with a more visually immersive experience.
Discover more beautiful Scrolly Tales like this.

Keep scrolling