tripathiarpan20/FLUX.1-schnell
tripathiarpan20
Texto a imagen
FLUX.1 [schnell] es un modelo de generación de imágenes a partir de texto basado en un transformador rectified flow de 12 mil millones de parámetros. Está orientado a producir imágenes de alta calidad con seguimiento competitivo de prompts y puede generar resultados en 1 a 4 pasos gracias a destilación de difusión adversarial latente.
Como usar
Instalación y uso con Diffusers para este repositorio:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
"tripathiarpan20/FLUX.1-schnell",
dtype=torch.bfloat16,
device_map="cuda"
)
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Ejemplo de referencia con FluxPipeline:
pip install -U diffusers
import torch
from diffusers import FluxPipeline
pipe = FluxPipeline.from_pretrained(
"black-forest-labs/FLUX.1-schnell",
torch_dtype=torch.bfloat16
)
pipe.enable_model_cpu_offload() # save some VRAM by offloading the model to CPU. Remove this if you have enough GPU power
prompt = "A cat holding a sign that says hello world"
image = pipe(
prompt,
guidance_scale=0.0,
num_inference_steps=4,
max_sequence_length=256,
generator=torch.Generator("cpu").manual_seed(0)
).images[0]
image.save("flux-schnell.png")
Funcionalidades
- Generación texto-a-imagen con arquitectura FLUX y pipeline Diffusers.
- Modelo de 12B parámetros capaz de crear imágenes desde descripciones textuales.
- Alta calidad visual y buen seguimiento de instrucciones, comparable con alternativas cerradas según la ficha del modelo.
- Inferencia rápida: puede generar imágenes de calidad en solo 1 a 4 pasos.
- Publicado con licencia Apache 2.0, apto para usos personales, científicos y comerciales.
- Disponible para uso local con Diffusers y ComfyUI; también se mencionan integraciones vía API externas para la familia FLUX.1.
Casos de uso
- Crear imágenes a partir de prompts textuales para prototipos creativos, diseño visual y experimentación generativa.
- Ejecutar inferencia local de texto-a-imagen con Diffusers o ComfyUI.
- Construir aplicaciones creativas o flujos de generación visual sobre FLUX.1 [schnell].
- Investigación y pruebas de modelos de difusión/rectified flow para generación de imágenes rápida.
- Uso comercial o científico donde encaje una licencia Apache 2.0, respetando las restricciones de uso indicadas.