BAAI/URSA-0.6B-IBQ1024

BAAI

Texto a imagen

URSA-0.6B-IBQ1024 es un modelo de generación y modificación de imágenes a partir de texto desarrollado por BAAI. Pertenece a la familia BAAI-Vision-URSA, tiene 0.6B parámetros, usa precisión FP16, genera a resolución 1024x1024 y emplea el tokenizer Emu3.5-Vision-Tokenizer.

Como usar

Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("BAAI/URSA-0.6B-IBQ1024", dtype=torch.bfloat16, device_map="cuda")

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Ejemplo con la canalización URSA:
pip install diffusers transformers accelerate imageio[ffmpeg]
pip install git+ssh://[email protected]/baaivision/URSA.git

import torch
from diffnext.pipelines import URSAPipeline

model_id, height, width = "BAAI/URSA-0.6B-IBQ1024", 1024, 1024
model_args = {"torch_dtype": torch.float16, "trust_remote_code": True}
pipe = URSAPipeline.from_pretrained(model_id, **model_args)
pipe = pipe.to(torch.device("cuda"))

prompt = "The bear, calm and still, gazes upward as if lost in contemplation of the cosmos."
negative_prompt = "worst quality, low quality, inconsistent motion, static, still, blurry, jittery, distorted, ugly"
image = pipe(**locals()).frames[0]
image.save("ursa.jpg")

Funcionalidades

Generación texto-a-imagen mediante Diffusers o URSAPipeline.
Tamaño compacto de 0.6B parámetros.
Salida de imagen a 1024x1024 píxeles.
Distribuido en formato Safetensors con licencia Apache 2.0.
Basado en la familia BAAI-Vision-URSA y relacionado con el trabajo Uniform Discrete Diffusion with Metric Path for Video Generation.
Pensado para investigación, herramientas educativas o creativas, arte, diseño y análisis de limitaciones y sesgos de modelos generativos.

Casos de uso

Investigación sobre modelos generativos de imagen.
Herramientas educativas o creativas que convierten texto en imágenes.
Generación de obras visuales para arte, diseño y procesos creativos.
Estudio de limitaciones, sesgos y despliegue seguro de modelos capaces de generar contenido dañino.
Pruebas locales de generación de imágenes con GPU CUDA mediante Diffusers o URSAPipeline.