"Sber ha presentado una importante actualización de su red neuronal generativa Kandinsky. La actualización a Kandinsky 3.0 mejoró significativamente la generación de ilustraciones, y la nueva Kandinsky Video es la primera red neuronal rusa capaz de crear vídeos.
Empecemos por Kandinsky 3.0. La principal novedad con respecto a la versión 2.2 es la mejora del reconocimiento de consultas: la generación corresponde ahora con mayor precisión a Promt sin comprometer la calidad. Además, la calidad de comprensión de las consultas sobre el tema del código cultural nacional - héroes de películas y dibujos animados soviéticos y rusos - ha aumentado espectacularmente. La diferencia quedó claramente demostrada en las consultas con Cheburashka y Kuzya el criado:
También mostraron comparaciones con versiones más antiguas de Kandinsky y otros modelos populares: Midjourney (firmado como MJv.52), Stable Diffusion XL (SDXL) y DALL-E 3. Estos son los resultados generados por la consulta "beautiful girl":
Es un "hombre con barba".
Y esto es "Barbie y Ken van de compras".
Otra novedad son los modos Inpainting y Outpainting: la posibilidad de "encajar" un nuevo objeto en una imagen existente o de pintar sobre él (reminiscencia del relleno generativo de Photoshop). He aquí un ejemplo de inpainting:
Y estos son ejemplos de añadir un objeto.
Puedes probar la red neuronal en la plataforma Fusion Brain, en el bot oficial de Telegram o en VKontakte.
Kandinsky Video permite crear pequeñas animaciones basadas en texto de hasta 8 segundos a unos 30 fotogramas por segundo con una resolución de hasta 512 píxeles en el lado mayor. El usuario puede configurar la altura y la anchura.
La creación de vídeos está disponible en modo beta en Fusion Brain, y el bot de Telegram sólo ofrece listas de espera por ahora.