Los creadores de Stable Diffusion han presentado un generador de imágenes "ligero" llamado Stable Cascade

Stability AI, creadores de Stable Diffusion, han presentado una nueva red neuronal, Stable Cascade. Utiliza la arquitectura Würstchen para reducir significativamente el espacio latente. Como resultado, la red neuronal requiere 16 veces menos recursos durante el entrenamiento.

En términos de resultados, Cascada Estable se parece a Difusión Estable XL, y debería funcionar más rápido. Pero los autores señalan que la red neuronal aún puede generar personas y rostros de forma incorrecta.

Otras funciones son la creación de variaciones de la imagen y la sugerencia sobre la imagen. En el primer caso, la red neuronal experimenta con una imagen dada: analiza la imagen original y sugiere variaciones similares. A continuación se muestra un ejemplo de generación de variaciones sin indicación adicional, simplemente se alimenta a la red neuronal con la imagen de la izquierda.

La generación con una imagen funciona de forma un poco diferente. Se añade ruido a la imagen original hasta que pierde detalle, y entonces la imagen ficticia se utiliza como base para la generación. A grandes rasgos, la red neuronal crea algo con el mismo contorno, pero con otros detalles, basándose en la descripción del texto. En el ejemplo siguiente, se han añadido a la fuente un 80% de ruido y la indicación "Hombre montando un roedor".

Ahora puedes probar Stable Cascade en Hugging Face - es una demo online no oficial con características reducidas: sólo se puede generar por petición de texto. El código está disponible en GitHub.

Las imágenes generadas a través de Cascada Estable son exclusivamente para uso no comercial.

Artículos Relacionados

Se ha anunciado Apple Intelligence, un sistema de IA personal para iPhone, iPad y Mac

Presentado macOS Sequoia: ahora puedes transmitir la pantalla de tu iPhone a tu Mac

Apple anunció nuevas funciones para los AirPods Pro y el Apple TV

Apple presenta una versión mejorada de VisionOS 2 para los auriculares Vision Pro

La ESA sobrevuela cañones de Marte que parecen marcas de garras de gato gigantes

Por qué la capacidad real de las powerbanks difiere de las afirmaciones del fabricante