j-min/reco_sd14_coco
j-min
Texto a imagen
Un modelo de generación de texto a imagen mediante el uso de la tubería de Difusión Estable (StableDiffusionPipeline). Este modelo, originalmente desarrollado por Zhengyuan Yang, Jianfeng Wang, Zhe Gan, Linjie Li, Kevin Lin, Chenfei Wu, Nan Duan, Zicheng Liu, Ce Liu, Michael Zeng, y Lijuan Wang, fue convertido a los 'diffusers' por Jaemin Cho. El modelo está basado en los principios de generación de imágenes en áreas controladas a partir del texto.
Como usar
import torch
from diffusers import StableDiffusionPipeline
pipe = StableDiffusionPipeline.from_pretrained(
"j-min/reco_sd14_coco",
torch_dtype=torch.float16
)
pipe = pipe.to("cuda")
prompt = "Una caja contiene seis donuts con diferentes coberturas y adornos. donut de chocolate. donut de vainilla oscura. donut con chispas. donut con azúcar glas. donut rosa. donut marrón."
imagen_generada = pipe(
prompt,
escala_de_guía=4).imágenes[0]
imagen_generada
def crear_prompt_reco(
caption: str = '',
phrases=[],
boxes=[],
normalize_boxes=True,
image_resolution=512,
num_bins=1000,
):
'''
método para crear el prompt ReCo
caption: título global
phrases: lista de títulos regionales
boxes: lista de coordenadas regionales (xyxy no normalizadas)
'''
Funcionalidades
- Generación de imágenes a partir de descripciones textuales
- Compatible con puntos finales de inferencia (Inference Endpoints)
- Compatible con AutoTrain
- Carga de los puntos de control y configuración originales de PyTorch Lightning
- Compatible con modelo StableDiffusionPipeline
Casos de uso
- Generación de imágenes a partir de descripciones textuales detalladas
- Creación de contenidos visuales personalizados mediante la integración de arriba a abajo
- Uso en aplicaciones que requieren generación de imágenes basadas en diseño o distribución de contenido