purplesmartai/pony-v7-base
purplesmartai
Texto a imagen
Pony V7 Base es un modelo de generación de imágenes a partir de texto basado en la arquitectura AuraFlow. Está orientado a la creación versátil de personajes, con soporte para estilos variados y tipos de especies como humanoides, antro, feral y otros, además de interacciones entre personajes descritas con lenguaje natural.
Como usar
Instalación y uso con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("purplesmartai/pony-v7-base", dtype=torch.bfloat16, device_map="cuda")
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
El modelo recomienda una estructura de prompt con etiquetas especiales, descripción factual de la imagen, descripción estilística y etiquetas adicionales. Puede entender lenguaje natural y tags, aunque las etiquetas especiales como score_X, style_cluster_x y source_X son menos consistentes que en V6.
Funcionalidades
- Generación texto-a-imagen con Diffusers y Safetensors/GGUF.
- Basado en AuraFlowPipeline, con tamaño aproximado de 7B parámetros.
- Soporta resoluciones de inferencia entre 768 px y 1536 px, con recomendación de usar resoluciones altas y al menos 30 pasos.
- Mejor comprensión de prompts que Pony V6, especialmente para información espacial y múltiples personajes.
- Mejor soporte para fondos, realismo, imágenes muy oscuras o muy claras y reconocimiento ampliado de personajes.
- Entrenado con unas 10M imágenes seleccionadas y rankeadas estéticamente desde un conjunto superior a 30M, usando captions detallados y etiquetas.
- Incluye variantes GGUF cuantizadas para menor uso de VRAM, con Q8_0 recomendado como equilibrio calidad/tamaño.
Casos de uso
- Crear personajes ficticios en estilos anime, cartoon, furry, pony, realistas u otros estilos visuales.
- Generar escenas con múltiples personajes e interacciones descritas en lenguaje natural.
- Producir imágenes con fondos más complejos o integrados con personajes.
- Experimentar con LoRAs usando SimpleTuner y flujos compatibles con Diffusers o ComfyUI.
- Usar modelos cuantizados GGUF para inferencia con menor consumo de VRAM.