Kandinsky 3

kandinsky-community

Texto a imagen

Kandinsky 3.0 es un modelo de difusión de texto a imagen de código abierto construido sobre la familia de modelos Kandinsky2-x. En comparación con sus predecesores, Kandinsky 3.0 incorpora más datos específicamente relacionados con la cultura rusa, lo que permite generar imágenes relacionadas con la cultura rusa. Además, se han realizado mejoras en la comprensión del texto y la calidad visual del modelo, aumentando el tamaño del codificador de texto y los modelos Diffusion U-Net, respectivamente.

Como usar

from diffusers import AutoPipelineForText2Image
import torch

pipe = AutoPipelineForText2Image.from_pretrained("kandinsky-community/kandinsky-3", variant="fp16", torch_dtype=torch.float16)
pipe.enable_model_cpu_offload()
        
prompt = "Una fotografía del interior de un tren subterráneo. Hay mapaches sentados en los asientos. Uno de ellos está leyendo un periódico. La ventana muestra la ciudad en el fondo."

generator = torch.Generator(device="cpu").manual_seed(0)
image = pipe(prompt, num_inference_steps=25, generator=generator).images[0]

from diffusers import AutoPipelineForImage2Image
from diffusers.utils import load_image
import torch

pipe = AutoPipelineForImage2Image.from_pretrained("kandinsky-community/kandinsky-3", variant="fp16", torch_dtype=torch.float16)
pipe.enable_model_cpu_offload()
        
prompt = "Una pintura del interior de un tren subterráneo con pequeños mapaches."
image = load_image("https://huggingface.co/datasets/hf-internal-testing/diffusers-images/resolve/main/kandinsky3/t2i.png")

generator = torch.Generator(device="cpu").manual_seed(0)
image = pipe(prompt, image=image, strength=0.75, num_inference_steps=25, generator=generator).images[0]

Funcionalidades

Modelo de difusión de texto a imagen
Entrenado con datos relacionados con la cultura rusa
Mejoras en la comprensión del texto
Aumento en la calidad visual de las imágenes generadas
Tres partes en la arquitectura: codificador de texto Flan-UL2 (parte de codificación) - 8.6B, Latente Diffusion U-Net - 3B, codificador/decodificador MoVQ - 267M

Casos de uso

Generar imágenes relacionadas con la cultura rusa
Crear arte digital a partir de descripciones textuales
Transformar textos en imágenes con alta calidad visual
Realizar cambios en imágenes existentes usando descripciones textuales