Kandinsky 3
kandinsky-community
Texto a imagen
Kandinsky 3.0 es un modelo de difusión de texto a imagen de código abierto construido sobre la familia de modelos Kandinsky2-x. En comparación con sus predecesores, Kandinsky 3.0 incorpora más datos específicamente relacionados con la cultura rusa, lo que permite generar imágenes relacionadas con la cultura rusa. Además, se han realizado mejoras en la comprensión del texto y la calidad visual del modelo, aumentando el tamaño del codificador de texto y los modelos Diffusion U-Net, respectivamente.
Como usar
from diffusers import AutoPipelineForText2Image
import torch
pipe = AutoPipelineForText2Image.from_pretrained("kandinsky-community/kandinsky-3", variant="fp16", torch_dtype=torch.float16)
pipe.enable_model_cpu_offload()
prompt = "Una fotografía del interior de un tren subterráneo. Hay mapaches sentados en los asientos. Uno de ellos está leyendo un periódico. La ventana muestra la ciudad en el fondo."
generator = torch.Generator(device="cpu").manual_seed(0)
image = pipe(prompt, num_inference_steps=25, generator=generator).images[0]
from diffusers import AutoPipelineForImage2Image
from diffusers.utils import load_image
import torch
pipe = AutoPipelineForImage2Image.from_pretrained("kandinsky-community/kandinsky-3", variant="fp16", torch_dtype=torch.float16)
pipe.enable_model_cpu_offload()
prompt = "Una pintura del interior de un tren subterráneo con pequeños mapaches."
image = load_image("https://huggingface.co/datasets/hf-internal-testing/diffusers-images/resolve/main/kandinsky3/t2i.png")
generator = torch.Generator(device="cpu").manual_seed(0)
image = pipe(prompt, image=image, strength=0.75, num_inference_steps=25, generator=generator).images[0]
Funcionalidades
- Modelo de difusión de texto a imagen
- Entrenado con datos relacionados con la cultura rusa
- Mejoras en la comprensión del texto
- Aumento en la calidad visual de las imágenes generadas
- Tres partes en la arquitectura: codificador de texto Flan-UL2 (parte de codificación) - 8.6B, Latente Diffusion U-Net - 3B, codificador/decodificador MoVQ - 267M
Casos de uso
- Generar imágenes relacionadas con la cultura rusa
- Crear arte digital a partir de descripciones textuales
- Transformar textos en imágenes con alta calidad visual
- Realizar cambios en imágenes existentes usando descripciones textuales