Stability AI, creadores de Stable Diffusion, han presentado una nueva red neuronal, Stable Cascade. Utiliza la arquitectura Würstchen para reducir significativamente el espacio latente. Como resultado, la red neuronal requiere 16 veces menos recursos durante el entrenamiento.
En términos de resultados, Cascada Estable se parece a Difusión Estable XL, y debería funcionar más rápido. Pero los autores señalan que la red neuronal aún puede generar personas y rostros de forma incorrecta.
Otras funciones son la creación de variaciones de la imagen y la sugerencia sobre la imagen. En el primer caso, la red neuronal experimenta con una imagen dada: analiza la imagen original y sugiere variaciones similares. A continuación se muestra un ejemplo de generación de variaciones sin indicación adicional, simplemente se alimenta a la red neuronal con la imagen de la izquierda.
La generación con una imagen funciona de forma un poco diferente. Se añade ruido a la imagen original hasta que pierde detalle, y entonces la imagen ficticia se utiliza como base para la generación. A grandes rasgos, la red neuronal crea algo con el mismo contorno, pero con otros detalles, basándose en la descripción del texto. En el ejemplo siguiente, se han añadido a la fuente un 80% de ruido y la indicación "Hombre montando un roedor".
Ahora puedes probar Stable Cascade en Hugging Face - es una demo online no oficial con características reducidas: sólo se puede generar por petición de texto. El código está disponible en GitHub.
Las imágenes generadas a través de Cascada Estable son exclusivamente para uso no comercial.