VisualBERT afinado en easy_vqa

daki97
Pregunta y respuesta

Este modelo es una versión afinada del modelo VisualBERT en el dataset easy_vqa. VisualBERT es un modelo multi-modal de visión y lenguaje que puede ser utilizado para tareas como responder preguntas visuales, elección múltiple y razonamiento visual. El dataset easy_vqa está compuesto por una pregunta, la respuesta de la pregunta (una etiqueta) y el id de la imagen relacionada con la pregunta. Cada imagen es de 64x64 y contiene una forma (rectángulo, triángulo o círculo) llena de un único color (azul, rojo, verde, amarillo, negro, gris, marrón o aguamarina) en una posición aleatoria. Las preguntas del dataset inquieren sobre la forma, el color de la forma y la presencia de una forma/color particular en ambas formas afirmativa y negativa. Las posibles respuestas son: las tres formas, los ocho colores, sí y no.

Como usar

Cargar el procesador de imágenes y el modelo con el siguiente código:

processor = ViltProcessor.from_pretrained("dandelin/vilt-b32-finetuned-vqa")

model = VisualBertForQuestionAnswering.from_pretrained("daki97/visualbert_finetuned_easy_vqa")

Funcionalidades

Modelo VisualBERT afinado en el dataset easy_vqa.
Multi-modal: visión y lenguaje.
Capaz de responder preguntas visuales, elección múltiple y razonamiento visual.

Casos de uso

Responder preguntas visuales.
Elección múltiple.
Razonamiento visual.