Reyyala/VideoDirector-models
Reyyala
Texto a imagen
Repositorio de Hugging Face para un modelo de difusión texto-a-imagen basado en Stable Diffusion v1-5. Genera y modifica imágenes a partir de prompts de texto usando un modelo de difusión latente con codificador de texto CLIP ViT-L/14. El checkpoint v1-5 parte de Stable Diffusion v1-2 y fue ajustado durante 595.000 pasos a resolución 512x512 sobre LAION aesthetics v2 5+, con un 10% de eliminación del condicionamiento textual para mejorar el muestreo con classifier-free guidance.
Como usar
Instalación y uso con Diffusers para este repositorio:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("Reyyala/VideoDirector-models", dtype=torch.bfloat16, device_map="cuda")
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Ejemplo adicional de la tarjeta de Stable Diffusion v1-5:
from diffusers import StableDiffusionPipeline
import torch
model_id = "sd-legacy/stable-diffusion-v1-5"
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
#pipe = pipe.to("cuda")
prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]
image.save("astronaut_rides_horse.png")
Funcionalidades
- Generación texto-a-imagen fotorrealista mediante difusión latente.
- Compatible con Diffusers y pesos Safetensors.
- Inicializado desde Stable Diffusion v1-2 y afinado como Stable Diffusion v1-5.
- Entrenado principalmente con captions en inglés, por lo que funciona mejor con prompts en inglés.
- Puede usarse en herramientas locales como ComfyUI, AUTOMATIC1111, SD.Next, InvokeAI, Draw Things y DiffusionBee.
- Incluye licencia CreativeML OpenRAIL-M y recomendaciones de uso con Safety Checker para filtrar conceptos NSFW.
Casos de uso
- Investigación sobre modelos generativos texto-a-imagen.
- Generación de arte, diseño visual y prototipos creativos.
- Herramientas educativas o creativas que generen imágenes desde prompts.
- Estudio de limitaciones, sesgos y despliegue seguro de modelos generativos.
- Pruebas locales de generación de imágenes con ecosistemas Stable Diffusion.