BAAI/AltCLIP-m9
BAAI
Texto a imagen
AltCLIP-m9 es un modelo CLIP multilingue de nueve idiomas desarrollado por BAAI para alinear texto e imagen. Sustituye o adapta el codificador de lenguaje de CLIP para ampliar sus capacidades multilingues y puede usarse en clasificacion zero-shot de imagenes, recuperacion texto-imagen y como componente de soporte para AltDiffusion-m9.
Como usar
Uso directo con Transformers:
# Load model directly
from transformers import AutoProcessor, AutoModelForZeroShotImageClassification
processor = AutoProcessor.from_pretrained("BAAI/AltCLIP-m9")
model = AutoModelForZeroShotImageClassification.from_pretrained("BAAI/AltCLIP-m9")
Ejemplo de inferencia con el codigo de AltCLIP/FlagAI:
from PIL import Image
import requests
# transformers version >= 4.21.0
from modeling_altclip import AltCLIP
from processing_altclip import AltCLIPProcessor
# now our repo's in private, so we need `use_auth_token=True`
model = AltCLIP.from_pretrained("BAAI/AltCLIP-m9")
processor = AltCLIPProcessor.from_pretrained("BAAI/AltCLIP-m9")
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(text=["a photo of a cat", "a photo of a dog"], images=image, return_tensors="pt", padding=True)
outputs = model(**inputs)
logits_per_image = outputs.logits_per_image # this is the image-text similarity score
probs = logits_per_image.softmax(dim=1) # we can take the softmax to get the label probabilities
Funcionalidades
- Modelo texto-imagen multilingue compatible con ingles, chino, espanol, frances, ruso, japones, coreano, arabe e italiano.
- Entrenado en dos fases: destilacion de conocimiento con corpus paralelos y aprendizaje contrastivo multilingue con pares imagen-texto.
- Usa Transformers y PyTorch, con soporte de AutoProcessor y AutoModelForZeroShotImageClassification.
- Orientado a similitud imagen-texto y clasificacion zero-shot, aunque la pagina tambien lo etiqueta dentro de flujos text-to-image por su relacion con AltDiffusion.
- Entrenado con datos de WuDao y LAION/LIAON segun la tarjeta del modelo.
- Licencia creativeml-openrail-m.
Casos de uso
- Clasificacion zero-shot de imagenes mediante prompts en varios idiomas.
- Calculo de similitud entre imagenes y textos para recuperacion o ranking multimodal.
- Soporte de codificacion texto-imagen para AltDiffusion-m9 y otros flujos de generacion basados en condicionamiento textual multilingue.
- Evaluacion y experimentacion con CLIP multilingue en ingles, chino, espanol, frances, ruso, japones, coreano, arabe e italiano.