osiria/minilm-l6-h384-italian-cross-encoder

osiria
Clasificación de texto

Este es un modelo MiniLMv2 para el idioma italiano, obtenido usando mmarco-mMiniLMv2-L6-H384-v1 como punto de partida y enfocándolo en el idioma italiano modificando la capa de embeddings (como en el enfoque [2], calculando frecuencias a nivel de documento sobre el conjunto de datos Wikipedia). El modelo resultante tiene 23 millones de parámetros, un vocabulario de 30.498 tokens y un tamaño de aproximadamente 90 MB.

Como usar

Para usar este modelo, puede utilizar el siguiente código en Python con la biblioteca Transformers de Hugging Face:

from transformers import AutoModelForSequenceClassification, AutoTokenizer

model_name = 'osiria/minilm-l6-h384-italian-cross-encoder'

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

inputs = tokenizer('Mi piaci. Ti amo', return_tensors='pt')
outputs = model(**inputs)

Funcionalidades

23 millones de parámetros
Vocabulario de 30.498 tokens
Tamaño de ~90 MB
Basado en MiniLMv2
Optimizado para el idioma italiano

Casos de uso

Clasificación de texto
Codificación cruzada de textos en italiano
Tareas de procesamiento de lenguaje natural