Carlos Santana Profile picture
Dec 16, 2022 7 tweets 3 min read Read on X
Breve hilo de lo que está por venir. ¿Veis esta imagen de aquí? Es el resultado de un modelo de difusión generando una imagen nueva de un astronauta montando a caballo. ¿Sorprendente? Bueno, ya no tanto. 2022 ha sido intenso.

Mirad ahora el siguiente tweet.
Aquí va otra imagen generada con el mismo proceso anterior, peeeero, esta es más rara de interpretar.

¿Por qué? Bueno, porque no está pensada para ser vista sino escuchada.

Esta "imagen" es un espectrograma, una forma de representar el sonido. ¿Cuál ha sido su prompt?
El prompt es "funk bassline with a jazzy saxophone solo" y el resultado (al interpretar la información de dicho espectrograma) suena así 👇
Efectivamente, este proyecto se llama Riffusion y es llevar la teoría de Stable Diffusion (generación de imágenes con texto) a la generación de música.

Aquí tenéis un par de ejemplos más de su web 👇
Y al igual que cuando trabajamos con imágenes se puede hacer diferentes interpolaciones para pasar de un estilo a otro, con el audio también se puede.

Aquí podéis escuchar parte de la transición desde el tecleo de una persona a un jazz :)
Echadle un ojo a la web del proyecto que tiene información muy chula explicando su funcionamiento.

Además podéis probarlo en Hugging Face.

DEMO: huggingface.co/spaces/fffilon…

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Carlos Santana

Carlos Santana Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @DotCSV

Jan 14
🔮 ¡MIS PREDICCIONES IA del 2025! 🔮

Un año más aquí os traigo 24 ideas de lo que creo podría pasar en el mundo de la Inteligencia Artificial durante este año.

24 predicciones que vosotros también podéis votar como probable usando el botón 💖

En 12 meses verificamos 😄👇
#1🔮  HEY… ¡TU CARA ME SUENA!

Al acabar el año será sencillo crear un avatar hiperrealista de tu persona con el que, emulando tu voz, apariencia y forma de hablar, podrás tener una conversación natural.

Aunque será percibido como algo extravagante algunos negocios empezarán a utilizar en espacios públicos como alternativa a servicios de cara al cliente.
#2🔮 EXPLOTA LA CREACIÓN AUDIOVISUAL IA

Internet se inundará de vídeos IA.

A nivel profesional, veremos al menos una web serie de éxito producida íntegramente con IA.

En el sector del cine y series será frecuente ver usos de la IA para la edición o generación de parte del metraje.

En un año, mínimo 1 de cada 4 anuncios de televisión emitidos usarán IA generativa para su producción.

La producción de contenido en 2D/3D/animación se abaratará, reduciendo drásticamente la brecha entre cine indie y producciones mayores.
Read 29 tweets
Dec 17, 2024
Sora es un desastre

La versión Turbo a la que nos han dado acceso no se sostiene por ningún lado, y la cosa hubiera quedado camuflada entre todos los anuncios de OpenAI si no fuera por el nuevo golpe sobre la mesa que ha dado Google con Veo 2

Aquí unas comparaciones - Sora 👇🧵
OpenAI Sora 🟠

prompt: A large iron ball falls on top of a cardboard box full of coins.
Read 23 tweets
Oct 10, 2024
Hey qué chulo! Llevo todo el año insistiendo en la importancia de benchmarks como el SWE-bench para evaluar a agentes autónomos en la realización de tareas de Ing. de Software y ahora OpenAI ha publicado un nuevo benchmark para tareas de Machine Learning! El MLE-bench ✨ Image
Esto es útil porque 1) seguimos dándole a la IA tareas más difíciles que podemos evaluar, y por tanto nos servirá para medir el progreso de los futuros sistemas y 2) porque que la IA haga labores de ML permitirá crear un feedback positivo de automejora 🔥
openai.com/index/mle-benc…
Si os preguntáis en qué consisten este tipo de tareas de ML, se tratan de competiciones de Kaggle de diferentes dificultades y categoría:Image
Image
Read 7 tweets
Oct 4, 2024
🔴 ¡NUEVO META GEN VIDEO!

Meta ha anunciado su nuevo generador de vídeo, con una calidad impresionante tanto en lo visual como en la consistencia y fluidez de los vídeos.

Atentos a los resultados, abro hilo! 🧵
A nivel de calidad visual se sitúa cerca de Sora, mostrando en varios ejemplos movimientos más fluidos y realistas.

Analizad los ejemplos de abajo. Locura!


Además de generar vídeo a partir de texto, muchos de los esfuerzos de las investigaciones de Meta en generación de imágenes y vídeo se centran en el control.

Aquí vemos cómo desde un vídeo a golpe de teclado se puede hacer modificaciones coherentes.
Read 7 tweets
Aug 13, 2024
🔴 MI CLON ARTIFICIAL CON FLUX

Llevo todo el día entrenando, configurando en local y mezclando Flux con otros Loras a la búsqueda del mejor combo para preparar un tutorial.

Mientras os comparto en este hilo los mejores resultados que voy obteniendo y os comparto impresiones 👇🧵Image
Como podéis ver, una vez entrenado el modelo los resultados son muy buenos a nivel de composición y realismo.

A mi gusto, le falta detalle y calidad, y es lo que estoy investigando. Posiblemente tenga que ver con los datos que he utilizado.

Aún así, WOW!
Image
Image
Una vez resuelto los problemas de calidad, tengo claro que este modelo será muy potente para crear fotografías sintéticas de uno mismo.
Image
Image
Read 12 tweets
Jul 12, 2024
🍓 NUEVAS FILTRACIONES de OPENAI

Un artículo de Reuters filtra información de una investigación interna llamado Strawberry, anteriormente conocido como Q* -chann channn!-

📰 El artículo la verdad que pone palabras a mucho de lo que se ha venido especulando en el último año:

→ Hablan de modelos "strawberries" para referirse a IAs con capacidad mejorada de razonamiento.

→ Ya se había filtrado anteriormente sobre Q* su capacidad de resolver problemas complejos de ciencia y matemáticas.

→ La técnica sería de post-entrenamiento. Es decir, una vez entrenas un LLM o LMM, puedes aplicarla para mejorar sus capacidades (como sucede con RLHF)

→ Apuntan a un paper de Stanford del que podría estar basado (Self-Taught Reasoner - STaR). Quizá de ahí la estrella de Q* y también el comienzo de STRawberry.

→ OpenAI busca con esta técnica lograr que las IAs puedan resolver long-horizon tasks. Es decir, tareas que recorrieran de planificación y ejecución de múltiples pasos y decisiones.

→ Investigan el usar estas capacidades de ejecución de tareas complejas conectándolo a un agente que ejecute en un ordenador instrucciones, y realizando trabajo de ingeniero de software y ML.

Wow. 😯Image
El artículo es este de aquí 👇

reuters.com/technology/art…
Bastante información, de la que mucho se había especulado, y que se aproxima a lo esperado. Aún así, una cosa es especular y otra tener (mediante filtraciones) la confirmación de que es eso.

Muy intrigado de las nuevas capacidades de la próxima generación de modelos!
Read 5 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Don't want to be a Premium member but still want to support us?

Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Or Donate anonymously using crypto!

Ethereum

0xfe58350B80634f60Fa6Dc149a72b4DFbc17D341E copy

Bitcoin

3ATGMxNzCUFzxpMCHL5sWSt4DVtS8UqXpi copy

Thank you for your support!

Follow Us!

:(