BAAI/URSA-0.6B-IBQ1024
BAAI
Texto a imagen
URSA-0.6B-IBQ1024 es un modelo de generación y modificación de imágenes a partir de texto desarrollado por BAAI. Pertenece a la familia BAAI-Vision-URSA, tiene 0.6B parámetros, usa precisión FP16, genera a resolución 1024x1024 y emplea el tokenizer Emu3.5-Vision-Tokenizer.
Como usar
Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("BAAI/URSA-0.6B-IBQ1024", dtype=torch.bfloat16, device_map="cuda")
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Ejemplo con la canalización URSA:
pip install diffusers transformers accelerate imageio[ffmpeg]
pip install git+ssh://[email protected]/baaivision/URSA.git
import torch
from diffnext.pipelines import URSAPipeline
model_id, height, width = "BAAI/URSA-0.6B-IBQ1024", 1024, 1024
model_args = {"torch_dtype": torch.float16, "trust_remote_code": True}
pipe = URSAPipeline.from_pretrained(model_id, **model_args)
pipe = pipe.to(torch.device("cuda"))
prompt = "The bear, calm and still, gazes upward as if lost in contemplation of the cosmos."
negative_prompt = "worst quality, low quality, inconsistent motion, static, still, blurry, jittery, distorted, ugly"
image = pipe(**locals()).frames[0]
image.save("ursa.jpg")
Funcionalidades
- Generación texto-a-imagen mediante Diffusers o URSAPipeline.
- Tamaño compacto de 0.6B parámetros.
- Salida de imagen a 1024x1024 píxeles.
- Distribuido en formato Safetensors con licencia Apache 2.0.
- Basado en la familia BAAI-Vision-URSA y relacionado con el trabajo Uniform Discrete Diffusion with Metric Path for Video Generation.
- Pensado para investigación, herramientas educativas o creativas, arte, diseño y análisis de limitaciones y sesgos de modelos generativos.
Casos de uso
- Investigación sobre modelos generativos de imagen.
- Herramientas educativas o creativas que convierten texto en imágenes.
- Generación de obras visuales para arte, diseño y procesos creativos.
- Estudio de limitaciones, sesgos y despliegue seguro de modelos capaces de generar contenido dañino.
- Pruebas locales de generación de imágenes con GPU CUDA mediante Diffusers o URSAPipeline.