data2vec-vision-base
El modelo BEiT preentrenado de manera autosupervisada en ImageNet-1k (1,2 millones de imágenes, 1000 clases) a una resolución de 224x224. Fue introducido en el artículo data2vec: Un Marco General para el Aprendizaje Autosupervisado en Voz, Visión y Lenguaje por Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu, Michael Auli y fue lanzado por primera vez en este repositorio. data2vec es un marco que utiliza el mismo método de aprendizaje para ya sea voz, PLN o visión por computadora. La idea central es predecir representaciones latentes del dato de entrada completo basado en una vista enmascarada del dato de entrada en una configuración de autodestilación usando una arquitectura Transformer estándar.
Como usar
Puedes usar el modelo sin ajustar para clasificación de imágenes. Consulta el hub de modelos para ver versiones afinadas en una tarea que te interese. Las imágenes se redimensionan/reescalan a la misma resolución (224x224) y se normalizan en los canales RGB con una media (0.5, 0.5, 0.5) y una desviación estándar (0.5, 0.5, 0.5). Para todos los hiperparámetros relacionados con el preentrenamiento, nos referimos al artículo original y al código fuente original.
Funcionalidades
- Aprendizaje autosupervisado
- Utiliza arquitectura Transformer estándar
- Predicción de representaciones latentes contextualizadas
- Preentrenado en ImageNet-1k
Casos de uso
- Clasificación de imágenes