SPRIGHT-T2I

Texto a imagen

El modelo SPRIGHT-T2I es un modelo de difusión de texto a imagen con alta coherencia espacial. Fue introducido por primera vez en 'Getting it Right: Improving Spatial Consistency in Text-to-Image Models', escrito por Agneet Chatterjee, Gabriela Ben Melech Stan, Estelle Aflalo, Sayak Paul, Dhruba Ghosh, Tejas Gokhale, Ludwig Schmidt, Hannaneh Hajishirzi, Vasudev Lal, Chitta Baral y Yezhou Yang. El modelo SPRIGHT-T2I se ajustó a partir de Stable Diffusion v2.1 en un subconjunto del dataset SPRIGHT, que contiene imágenes y descripciones centradas espacialmente. Aprovechando SPRIGHT, junto con técnicas de entrenamiento eficientes, logramos un rendimiento de vanguardia en la generación de imágenes espacialmente precisas a partir de texto.

Como usar

Usa el siguiente código para ejecutar SPRIGHT-T2I de manera fluida y efectiva con la biblioteca Diffusers de 🤗:
pip install diffusers transformers accelerate -U

Running the pipeline:
from diffusers import DiffusionPipeline

pipe_id = "SPRIGHT-T2I/spright-t2i-sd2"

pipe = DiffusionPipeline.from_pretrained(
pipe_id,
torch_dtype=torch.float16,
use_safetensors=True,
).to("cuda")

prompt = "a cute kitten is sitting in a dish on a table"
image = pipe(prompt).images[0]

image.save("kitten_sittin_in_a_dish.png")

Funcionalidades

Modelo de generación de imágenes por difusión basado en texto con alta coherencia espacial
Ajustado a partir de Stable Diffusion v2.1
Utiliza el dataset SPRIGHT, que incluye descripciones centradas espacialmente
Mejora significativa en la precisión espacial y aspectos no espaciales de la generación de imágenes a partir de texto

Casos de uso

Generación de imágenes espacialmente precisas a partir de texto
Uso en proyectos que requieren alta coherencia espacial en las imágenes generadas
Aplicaciones que necesitan mejorar las capacidades de generación de imágenes con múltiples objetos