BAAI/AltCLIP-m9

BAAI

Texto a imagen

AltCLIP-m9 es un modelo CLIP multilingue de nueve idiomas desarrollado por BAAI para alinear texto e imagen. Sustituye o adapta el codificador de lenguaje de CLIP para ampliar sus capacidades multilingues y puede usarse en clasificacion zero-shot de imagenes, recuperacion texto-imagen y como componente de soporte para AltDiffusion-m9.

Como usar

Uso directo con Transformers:
# Load model directly
from transformers import AutoProcessor, AutoModelForZeroShotImageClassification

processor = AutoProcessor.from_pretrained("BAAI/AltCLIP-m9")
model = AutoModelForZeroShotImageClassification.from_pretrained("BAAI/AltCLIP-m9")

Ejemplo de inferencia con el codigo de AltCLIP/FlagAI:
from PIL import Image
import requests
# transformers version >= 4.21.0
from modeling_altclip import AltCLIP
from processing_altclip import AltCLIPProcessor

# now our repo's in private, so we need `use_auth_token=True`
model = AltCLIP.from_pretrained("BAAI/AltCLIP-m9")
processor = AltCLIPProcessor.from_pretrained("BAAI/AltCLIP-m9")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

inputs = processor(text=["a photo of a cat", "a photo of a dog"], images=image, return_tensors="pt", padding=True)
outputs = model(**inputs)
logits_per_image = outputs.logits_per_image # this is the image-text similarity score
probs = logits_per_image.softmax(dim=1) # we can take the softmax to get the label probabilities

Funcionalidades

Modelo texto-imagen multilingue compatible con ingles, chino, espanol, frances, ruso, japones, coreano, arabe e italiano.
Entrenado en dos fases: destilacion de conocimiento con corpus paralelos y aprendizaje contrastivo multilingue con pares imagen-texto.
Usa Transformers y PyTorch, con soporte de AutoProcessor y AutoModelForZeroShotImageClassification.
Orientado a similitud imagen-texto y clasificacion zero-shot, aunque la pagina tambien lo etiqueta dentro de flujos text-to-image por su relacion con AltDiffusion.
Entrenado con datos de WuDao y LAION/LIAON segun la tarjeta del modelo.
Licencia creativeml-openrail-m.

Casos de uso

Clasificacion zero-shot de imagenes mediante prompts en varios idiomas.
Calculo de similitud entre imagenes y textos para recuperacion o ranking multimodal.
Soporte de codificacion texto-imagen para AltDiffusion-m9 y otros flujos de generacion basados en condicionamiento textual multilingue.
Evaluacion y experimentacion con CLIP multilingue en ingles, chino, espanol, frances, ruso, japones, coreano, arabe e italiano.