osiria/minilm-l6-h384-italian-cross-encoder
osiria
Clasificación de texto
Este es un modelo MiniLMv2 para el idioma italiano, obtenido usando mmarco-mMiniLMv2-L6-H384-v1 como punto de partida y enfocándolo en el idioma italiano modificando la capa de embeddings (como en el enfoque [2], calculando frecuencias a nivel de documento sobre el conjunto de datos Wikipedia). El modelo resultante tiene 23 millones de parámetros, un vocabulario de 30.498 tokens y un tamaño de aproximadamente 90 MB.
Como usar
Para usar este modelo, puede utilizar el siguiente código en Python con la biblioteca Transformers de Hugging Face:
from transformers import AutoModelForSequenceClassification, AutoTokenizer
model_name = 'osiria/minilm-l6-h384-italian-cross-encoder'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)
inputs = tokenizer('Mi piaci. Ti amo', return_tensors='pt')
outputs = model(**inputs)
Funcionalidades
- 23 millones de parámetros
- Vocabulario de 30.498 tokens
- Tamaño de ~90 MB
- Basado en MiniLMv2
- Optimizado para el idioma italiano
Casos de uso
- Clasificación de texto
- Codificación cruzada de textos en italiano
- Tareas de procesamiento de lenguaje natural