VisualBERT afinado en easy_vqa
Este modelo es una versión afinada del modelo VisualBERT en el dataset easy_vqa. VisualBERT es un modelo multi-modal de visión y lenguaje que puede ser utilizado para tareas como responder preguntas visuales, elección múltiple y razonamiento visual. El dataset easy_vqa está compuesto por una pregunta, la respuesta de la pregunta (una etiqueta) y el id de la imagen relacionada con la pregunta. Cada imagen es de 64x64 y contiene una forma (rectángulo, triángulo o círculo) llena de un único color (azul, rojo, verde, amarillo, negro, gris, marrón o aguamarina) en una posición aleatoria. Las preguntas del dataset inquieren sobre la forma, el color de la forma y la presencia de una forma/color particular en ambas formas afirmativa y negativa. Las posibles respuestas son: las tres formas, los ocho colores, sí y no.
Como usar
Cargar el procesador de imágenes y el modelo con el siguiente código:
processor = ViltProcessor.from_pretrained("dandelin/vilt-b32-finetuned-vqa")
model = VisualBertForQuestionAnswering.from_pretrained("daki97/visualbert_finetuned_easy_vqa")
Funcionalidades
- Modelo VisualBERT afinado en el dataset easy_vqa.
- Multi-modal: visión y lenguaje.
- Capaz de responder preguntas visuales, elección múltiple y razonamiento visual.
Casos de uso
- Responder preguntas visuales.
- Elección múltiple.
- Razonamiento visual.