touchtech/fashion-images-pack-types-vit-large-patch16-224-in21k-v3
Este modelo es una versión afinada de google/vit-large-patch16-224-in21k en el conjunto de datos touchtech/fashion-images-pack-types. Este modelo logra los siguientes resultados en el conjunto de evaluación: Pérdida: 0.0485, Precisión: 0.9908. Las versiones del marco utilizadas incluyen Transformers 4.33.0.dev0, Pytorch 2.0.1+cu118, Datasets 2.14.5, y Tokenizers 0.13.3.
Como usar
El modelo puede ser usado para la clasificación de imágenes de moda. Los hiperparámetros utilizados durante el entrenamiento fueron los siguientes: tasa de aprendizaje: 2e-05, tamaño de lote de entrenamiento: 8, tamaño de lote de evaluación: 8, semilla: 1337, optimizador: Adam con betas=(0.9,0.999) y epsilon=1e-08, tipo de programador de tasa de aprendizaje: lineal, número de épocas: 5.0. Aquí hay un ejemplo de código en Markdown para usar el modelo:
# Uso del modelo
import torch
from transformers import ViTForImageClassification, ViTFeatureExtractor
# Cargar el modelo y el extractor de características
model_name = 'touchtech/fashion-images-pack-types-vit-large-patch16-224-in21k-v3'
model = ViTForImageClassification.from_pretrained(model_name)
extractor = ViTFeatureExtractor.from_pretrained(model_name)
# Procesar la imagen
image = 'ruta/a/tu/imagen.jpg'
inputs = extractor(images=image, return_tensors='pt')
# Realizar la inferencia
outputs = model(**inputs)
logits = outputs.logits
# Obtener la predicción
predicted_class_idx = logits.argmax(-1).item()
print(f'La imagen pertenece a la clase {predicted_class_idx}')
Funcionalidades
- Clasificación de imágenes
- Transformers
- PyTorch
- vision
Casos de uso
- Clasificación de imágenes de moda