MiVOLO
Realizar el reconocimiento de edad y género en escenarios reales es una tarea repleta de desafíos: no solo hay condiciones ambientales variables, poses complejas y diferencias en la calidad de la imagen, sino también situaciones donde el rostro está parcial o totalmente oculto. MiVOLO es un enfoque sencillo que aprovecha el último Transformer visual para la estimación de edad y género. Este método integra estas dos tareas en un modelo unificado de entrada/salida dual, utilizando no solo la información del rostro, sino también datos de la imagen completa del cuerpo. Esto mejora las capacidades de generalización del modelo, permitiéndole proporcionar resultados satisfactorios incluso cuando el rostro no es visible en la imagen. Para evaluar el modelo, se realizaron experimentos en cuatro conjuntos de datos de referencia populares, logrando un rendimiento de vanguardia al mismo tiempo que demostraba la capacidad de procesar en tiempo real. Además, se introdujo un nuevo conjunto de datos de referencia basado en imágenes del conjunto de datos Open Images. Las anotaciones de la verdad en tierra de este conjunto de datos de referencia fueron meticulosamente creadas por anotadores humanos y aseguraron una alta precisión mediante la agregación inteligente de los resultados de la votación. Además, se comparó el rendimiento del reconocimiento de edad del modelo con la precisión a nivel humano, mostrando una clara superioridad sobre los humanos en la mayoría de los rangos de edad. Finalmente, se proporcionó acceso público al modelo, junto con el código para la verificación e inferencia. Además, se suministraron anotaciones adicionales para los conjuntos de datos utilizados, y se introdujo el nuevo conjunto de datos de referencia.
Como usar
from modelscope import snapshot_download
model_dir = snapshot_download("MuGeminorum/MiVOLO")
git clone [email protected]:MuGeminorum/MiVOLO
cd MiVOLO
Funcionalidades
- Estimación de edad y género mediante Transformer visual.
- Modelo unificado con entrada/salida dual.
- Utiliza información tanto del rostro como del cuerpo completo.
- Capacidad de generalización mejorada.
- Procesamiento en tiempo real.
- Nuevo conjunto de datos de referencia basado en Open Images.
- Rendimiento superior a nivel humano en reconocimiento de edad.
Casos de uso
- Reconocimiento de edad en imágenes.
- Reconocimiento de género en imágenes.
- Aplicaciones en tiempo real para análisis de imágenes.
- Estudios de comparación de rendimiento entre IA y humanos.