j-min/reco_sd14_coco

j-min

Texto a imagen

Un modelo de generación de texto a imagen mediante el uso de la tubería de Difusión Estable (StableDiffusionPipeline). Este modelo, originalmente desarrollado por Zhengyuan Yang, Jianfeng Wang, Zhe Gan, Linjie Li, Kevin Lin, Chenfei Wu, Nan Duan, Zicheng Liu, Ce Liu, Michael Zeng, y Lijuan Wang, fue convertido a los 'diffusers' por Jaemin Cho. El modelo está basado en los principios de generación de imágenes en áreas controladas a partir del texto.

Como usar

import torch
from diffusers import StableDiffusionPipeline

pipe = StableDiffusionPipeline.from_pretrained(
"j-min/reco_sd14_coco",
torch_dtype=torch.float16
)
pipe = pipe.to("cuda")

prompt = "Una caja contiene seis donuts con diferentes coberturas y adornos. donut de chocolate. donut de vainilla oscura. donut con chispas. donut con azúcar glas. donut rosa. donut marrón."
imagen_generada = pipe(
prompt,
escala_de_guía=4).imágenes[0]
imagen_generada

def crear_prompt_reco(
  caption: str = '',
  phrases=[],
  boxes=[],
  normalize_boxes=True,
  image_resolution=512,
  num_bins=1000,
):
  '''
método para crear el prompt ReCo

caption: título global
phrases: lista de títulos regionales
boxes: lista de coordenadas regionales (xyxy no normalizadas)
'''

Funcionalidades

Generación de imágenes a partir de descripciones textuales
Compatible con puntos finales de inferencia (Inference Endpoints)
Compatible con AutoTrain
Carga de los puntos de control y configuración originales de PyTorch Lightning
Compatible con modelo StableDiffusionPipeline

Casos de uso

Generación de imágenes a partir de descripciones textuales detalladas
Creación de contenidos visuales personalizados mediante la integración de arriba a abajo
Uso en aplicaciones que requieren generación de imágenes basadas en diseño o distribución de contenido