RussianNLP/ruRoBERTa-large-rucola

RussianNLP
Clasificación de texto

Versión finamente ajustada de RuRoBERTa-large para la tarea de clasificación de aceptabilidad lingüística en el benchmark RuCoLA. Los hiperparámetros utilizados para el ajuste fino son los siguientes: 5 épocas de entrenamiento (con parada temprana basada en MCC de validación), tasa de aprendizaje máxima: 1e-5, calentamiento lineal durante el 10% del tiempo total de entrenamiento, decaimiento de peso: 1e-4, tamaño del lote: 32, semilla aleatoria: 5, optimizador: torch.optim.AdamW.

Como usar

import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification

# Cargar el tokenizador y el modelo
model_name = "RussianNLP/ruRoBERTa-large-rucola"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

# Texto de ejemplo para clasificación
texto = "Он решил ту или иную сложную задачу."

# Tokenizar y obtener predicciones
inputs = tokenizer(texto, return_tensors='pt')
outputs = model(**inputs)
logits = outputs.logits
predicciones = torch.softmax(logits, dim=-1)
resultado = torch.argmax(predicciones)

print(f'Predicción: {resultado.item()}')

Funcionalidades

Clasificación de Texto
Transformers
PyTorch
Ruso
roberta
Compatible con AutoTrain
Compatible con Endpoints

Casos de uso

Clasificación de aceptabilidad lingüística
Uso en el benchmark RuCoLA