AltCLIP
BAAI
Texto a imagen
AltCLIP es un modelo CLIP bilingüe eficiente y sencillo entrenado basado en Stable Diffusion con datos del conjunto de datos WuDao y Liaon. AltCLIP puede proporcionar soporte para el modelo AltDiffusion en este proyecto. El código del modelo ha sido de código abierto en FlagAI y los pesos están ubicados en modelhub. También ofrecemos scripts para ajuste fino, inferencia y validación.
Como usar
from PIL import Image
import requests
# version de transformers >= 4.21.0
from modeling_altclip import AltCLIP
from processing_altclip import AltCLIPProcessor
# ahora nuestro repositorio está en privado, así que necesitamos `use_auth_token=True`
model = AltCLIP.from_pretrained('BAAI/AltCLIP')
processor = AltCLIPProcessor.from_pretrained('BAAI/AltCLIP')
url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(text=['a photo of a cat', 'a photo of a dog'], images=image, return_tensors='pt', padding=True)
outputs = model(**inputs)
logits_per_image = outputs.logits_per_image # esta es la puntuación de similitud imagen-texto
probs = logits_per_image.softmax(dim=1) # podemos aplicar softmax para obtener las probabilidades de las etiquetas
Funcionalidades
- Representación texto-imagen
- Modelo basado en Transformers
- Compatible con PyTorch
- Clasificación de imágenes sin entrenamiento previo
- Difusión estable
Casos de uso
- Clasificación de imágenes sin entrenamiento previo
- Generación de imágenes desde texto
- Soporte para modelos de difusión como AltDiffusion
- Ajuste fino para tareas específicas
- Validación e inferencia de imágenes multilingües