tripathiarpan20/FLUX.1-schnell

tripathiarpan20

Texto a imagen

FLUX.1 [schnell] es un modelo de generación de imágenes a partir de texto basado en un transformador rectified flow de 12 mil millones de parámetros. Está orientado a producir imágenes de alta calidad con seguimiento competitivo de prompts y puede generar resultados en 1 a 4 pasos gracias a destilación de difusión adversarial latente.

Como usar

Instalación y uso con Diffusers para este repositorio:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
    "tripathiarpan20/FLUX.1-schnell",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Ejemplo de referencia con FluxPipeline:
pip install -U diffusers

import torch
from diffusers import FluxPipeline

pipe = FluxPipeline.from_pretrained(
    "black-forest-labs/FLUX.1-schnell",
    torch_dtype=torch.bfloat16
)
pipe.enable_model_cpu_offload()  # save some VRAM by offloading the model to CPU. Remove this if you have enough GPU power

prompt = "A cat holding a sign that says hello world"
image = pipe(
    prompt,
    guidance_scale=0.0,
    num_inference_steps=4,
    max_sequence_length=256,
    generator=torch.Generator("cpu").manual_seed(0)
).images[0]
image.save("flux-schnell.png")

Funcionalidades

Generación texto-a-imagen con arquitectura FLUX y pipeline Diffusers.
Modelo de 12B parámetros capaz de crear imágenes desde descripciones textuales.
Alta calidad visual y buen seguimiento de instrucciones, comparable con alternativas cerradas según la ficha del modelo.
Inferencia rápida: puede generar imágenes de calidad en solo 1 a 4 pasos.
Publicado con licencia Apache 2.0, apto para usos personales, científicos y comerciales.
Disponible para uso local con Diffusers y ComfyUI; también se mencionan integraciones vía API externas para la familia FLUX.1.

Casos de uso

Crear imágenes a partir de prompts textuales para prototipos creativos, diseño visual y experimentación generativa.
Ejecutar inferencia local de texto-a-imagen con Diffusers o ComfyUI.
Construir aplicaciones creativas o flujos de generación visual sobre FLUX.1 [schnell].
Investigación y pruebas de modelos de difusión/rectified flow para generación de imágenes rápida.
Uso comercial o científico donde encaje una licencia Apache 2.0, respetando las restricciones de uso indicadas.