BAAI/URSA-1.7B-IBQ512

BAAI

Texto a imagen

URSA-1.7B-IBQ512 es un modelo de generación texto-a-imagen desarrollado por BAAI dentro de la familia BAAI-Vision-URSA. Tiene 1.7B parámetros, usa precisión FP16 y genera o modifica imágenes a partir de prompts de texto con resolución 512x512. Está asociado al trabajo “Uniform Discrete Diffusion with Metric Path for Video Generation” y utiliza el tokenizer Emu3.5-Vision-Tokenizer.

Como usar

Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("BAAI/URSA-1.7B-IBQ512", dtype=torch.bfloat16, device_map="cuda")

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Ejemplo con URSAPipeline:
pip install diffusers transformers accelerate imageio[ffmpeg]
pip install git+ssh://[email protected]/baaivision/URSA.git

import torch
from diffnext.pipelines import URSAPipeline

model_id, height, width = "BAAI/URSA-1.7B-IBQ512", 512, 512
model_args = {"torch_dtype": torch.float16, "trust_remote_code": True}
pipe = URSAPipeline.from_pretrained(model_id, **model_args)
pipe = pipe.to(torch.device("cuda"))

prompt = "The bear, calm and still, gazes upward as if lost in contemplation of the cosmos."
negative_prompt = "worst quality, low quality, inconsistent motion, static, still, blurry, jittery, distorted, ugly"
image = pipe(**locals()).frames[0]
image.save("ursa.jpg")

Funcionalidades

Generación y modificación de imágenes desde texto.
Modelo Diffusers/Safetensors compatible con URSAPipeline.
Tamaño de 1.7B parámetros con precisión torch.float16/FP16.
Resolución objetivo de 512x512 píxeles.
Basado en la familia BAAI-Vision-URSA y relacionado con Qwen/Qwen3-1.7B.
Licencia Apache 2.0.
Limitaciones conocidas: autoencoding con pérdida, texto complejo poco legible, fotorealismo imperfecto y posibles errores en dedos u otros detalles anatómicos.

Casos de uso

Investigación sobre modelos generativos de imagen y difusión discreta.
Herramientas educativas o creativas basadas en generación visual.
Creación de arte, diseño y otros procesos visuales asistidos por IA.
Evaluación de limitaciones, sesgos y despliegue seguro de modelos generativos.
No está pensado para generar representaciones factuales de personas o eventos reales.