AltCLIP

BAAI
Texto a imagen

AltCLIP es un modelo CLIP bilingüe eficiente y sencillo entrenado basado en Stable Diffusion con datos del conjunto de datos WuDao y Liaon. AltCLIP puede proporcionar soporte para el modelo AltDiffusion en este proyecto. El código del modelo ha sido de código abierto en FlagAI y los pesos están ubicados en modelhub. También ofrecemos scripts para ajuste fino, inferencia y validación.

Como usar

from PIL import Image
import requests

# version de transformers >= 4.21.0
from modeling_altclip import AltCLIP
from processing_altclip import AltCLIPProcessor

# ahora nuestro repositorio está en privado, así que necesitamos `use_auth_token=True`
model = AltCLIP.from_pretrained('BAAI/AltCLIP')
processor = AltCLIPProcessor.from_pretrained('BAAI/AltCLIP')

url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)

inputs = processor(text=['a photo of a cat', 'a photo of a dog'], images=image, return_tensors='pt', padding=True)

outputs = model(**inputs)
logits_per_image = outputs.logits_per_image # esta es la puntuación de similitud imagen-texto
probs = logits_per_image.softmax(dim=1) # podemos aplicar softmax para obtener las probabilidades de las etiquetas

Funcionalidades

Representación texto-imagen
Modelo basado en Transformers
Compatible con PyTorch
Clasificación de imágenes sin entrenamiento previo
Difusión estable

Casos de uso

Clasificación de imágenes sin entrenamiento previo
Generación de imágenes desde texto
Soporte para modelos de difusión como AltDiffusion
Ajuste fino para tareas específicas
Validación e inferencia de imágenes multilingües