purplesmartai/pony-v7-base

purplesmartai
Texto a imagen

Pony V7 Base es un modelo de generación de imágenes a partir de texto basado en la arquitectura AuraFlow. Está orientado a la creación versátil de personajes, con soporte para estilos variados y tipos de especies como humanoides, antro, feral y otros, además de interacciones entre personajes descritas con lenguaje natural.

Como usar

Instalación y uso con Diffusers:

pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("purplesmartai/pony-v7-base", dtype=torch.bfloat16, device_map="cuda")

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

El modelo recomienda una estructura de prompt con etiquetas especiales, descripción factual de la imagen, descripción estilística y etiquetas adicionales. Puede entender lenguaje natural y tags, aunque las etiquetas especiales como score_X, style_cluster_x y source_X son menos consistentes que en V6.

Funcionalidades

Generación texto-a-imagen con Diffusers y Safetensors/GGUF.
Basado en AuraFlowPipeline, con tamaño aproximado de 7B parámetros.
Soporta resoluciones de inferencia entre 768 px y 1536 px, con recomendación de usar resoluciones altas y al menos 30 pasos.
Mejor comprensión de prompts que Pony V6, especialmente para información espacial y múltiples personajes.
Mejor soporte para fondos, realismo, imágenes muy oscuras o muy claras y reconocimiento ampliado de personajes.
Entrenado con unas 10M imágenes seleccionadas y rankeadas estéticamente desde un conjunto superior a 30M, usando captions detallados y etiquetas.
Incluye variantes GGUF cuantizadas para menor uso de VRAM, con Q8_0 recomendado como equilibrio calidad/tamaño.

Casos de uso

Crear personajes ficticios en estilos anime, cartoon, furry, pony, realistas u otros estilos visuales.
Generar escenas con múltiples personajes e interacciones descritas en lenguaje natural.
Producir imágenes con fondos más complejos o integrados con personajes.
Experimentar con LoRAs usando SimpleTuner y flujos compatibles con Diffusers o ComfyUI.
Usar modelos cuantizados GGUF para inferencia con menor consumo de VRAM.