data2vec-vision-base

facebook
Clasificación de imagen

El modelo BEiT preentrenado de manera autosupervisada en ImageNet-1k (1,2 millones de imágenes, 1000 clases) a una resolución de 224x224. Fue introducido en el artículo data2vec: Un Marco General para el Aprendizaje Autosupervisado en Voz, Visión y Lenguaje por Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu, Michael Auli y fue lanzado por primera vez en este repositorio. data2vec es un marco que utiliza el mismo método de aprendizaje para ya sea voz, PLN o visión por computadora. La idea central es predecir representaciones latentes del dato de entrada completo basado en una vista enmascarada del dato de entrada en una configuración de autodestilación usando una arquitectura Transformer estándar.

Como usar

Puedes usar el modelo sin ajustar para clasificación de imágenes. Consulta el hub de modelos para ver versiones afinadas en una tarea que te interese. Las imágenes se redimensionan/reescalan a la misma resolución (224x224) y se normalizan en los canales RGB con una media (0.5, 0.5, 0.5) y una desviación estándar (0.5, 0.5, 0.5). Para todos los hiperparámetros relacionados con el preentrenamiento, nos referimos al artículo original y al código fuente original.

Funcionalidades

Aprendizaje autosupervisado
Utiliza arquitectura Transformer estándar
Predicción de representaciones latentes contextualizadas
Preentrenado en ImageNet-1k

Casos de uso

Clasificación de imágenes