SPRIGHT-T2I
El modelo SPRIGHT-T2I es un modelo de difusión de texto a imagen con alta coherencia espacial. Fue introducido por primera vez en 'Getting it Right: Improving Spatial Consistency in Text-to-Image Models', escrito por Agneet Chatterjee, Gabriela Ben Melech Stan, Estelle Aflalo, Sayak Paul, Dhruba Ghosh, Tejas Gokhale, Ludwig Schmidt, Hannaneh Hajishirzi, Vasudev Lal, Chitta Baral y Yezhou Yang. El modelo SPRIGHT-T2I se ajustó a partir de Stable Diffusion v2.1 en un subconjunto del dataset SPRIGHT, que contiene imágenes y descripciones centradas espacialmente. Aprovechando SPRIGHT, junto con técnicas de entrenamiento eficientes, logramos un rendimiento de vanguardia en la generación de imágenes espacialmente precisas a partir de texto.
Como usar
Usa el siguiente código para ejecutar SPRIGHT-T2I de manera fluida y efectiva con la biblioteca Diffusers de 🤗:
pip install diffusers transformers accelerate -U
Running the pipeline:
from diffusers import DiffusionPipeline
pipe_id = "SPRIGHT-T2I/spright-t2i-sd2"
pipe = DiffusionPipeline.from_pretrained(
pipe_id,
torch_dtype=torch.float16,
use_safetensors=True,
).to("cuda")
prompt = "a cute kitten is sitting in a dish on a table"
image = pipe(prompt).images[0]
image.save("kitten_sittin_in_a_dish.png")
Funcionalidades
- Modelo de generación de imágenes por difusión basado en texto con alta coherencia espacial
- Ajustado a partir de Stable Diffusion v2.1
- Utiliza el dataset SPRIGHT, que incluye descripciones centradas espacialmente
- Mejora significativa en la precisión espacial y aspectos no espaciales de la generación de imágenes a partir de texto
Casos de uso
- Generación de imágenes espacialmente precisas a partir de texto
- Uso en proyectos que requieren alta coherencia espacial en las imágenes generadas
- Aplicaciones que necesitan mejorar las capacidades de generación de imágenes con múltiples objetos