BAAI/URSA-1.7B-IBQ512
BAAI
Texto a imagen
URSA-1.7B-IBQ512 es un modelo de generación texto-a-imagen desarrollado por BAAI dentro de la familia BAAI-Vision-URSA. Tiene 1.7B parámetros, usa precisión FP16 y genera o modifica imágenes a partir de prompts de texto con resolución 512x512. Está asociado al trabajo “Uniform Discrete Diffusion with Metric Path for Video Generation” y utiliza el tokenizer Emu3.5-Vision-Tokenizer.
Como usar
Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("BAAI/URSA-1.7B-IBQ512", dtype=torch.bfloat16, device_map="cuda")
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Ejemplo con URSAPipeline:
pip install diffusers transformers accelerate imageio[ffmpeg]
pip install git+ssh://[email protected]/baaivision/URSA.git
import torch
from diffnext.pipelines import URSAPipeline
model_id, height, width = "BAAI/URSA-1.7B-IBQ512", 512, 512
model_args = {"torch_dtype": torch.float16, "trust_remote_code": True}
pipe = URSAPipeline.from_pretrained(model_id, **model_args)
pipe = pipe.to(torch.device("cuda"))
prompt = "The bear, calm and still, gazes upward as if lost in contemplation of the cosmos."
negative_prompt = "worst quality, low quality, inconsistent motion, static, still, blurry, jittery, distorted, ugly"
image = pipe(**locals()).frames[0]
image.save("ursa.jpg")
Funcionalidades
- Generación y modificación de imágenes desde texto.
- Modelo Diffusers/Safetensors compatible con URSAPipeline.
- Tamaño de 1.7B parámetros con precisión torch.float16/FP16.
- Resolución objetivo de 512x512 píxeles.
- Basado en la familia BAAI-Vision-URSA y relacionado con Qwen/Qwen3-1.7B.
- Licencia Apache 2.0.
- Limitaciones conocidas: autoencoding con pérdida, texto complejo poco legible, fotorealismo imperfecto y posibles errores en dedos u otros detalles anatómicos.
Casos de uso
- Investigación sobre modelos generativos de imagen y difusión discreta.
- Herramientas educativas o creativas basadas en generación visual.
- Creación de arte, diseño y otros procesos visuales asistidos por IA.
- Evaluación de limitaciones, sesgos y despliegue seguro de modelos generativos.
- No está pensado para generar representaciones factuales de personas o eventos reales.