bert-base-turkish-128k-cased-finetuned_lr-2e-05_epochs-3
husnu
Pregunta y respuesta
Este modelo es una versión ajustada de dbmdz/bert-base-turkish-128k-cased en el conjunto de datos Turkish Squad. Logra los siguientes resultados en el conjunto de evaluación: Pérdida: 1.4724.
Como usar
from transformers import BertTokenizer, BertForQuestionAnswering
import torch
# Cargar el modelo pre-entrenado
model_name = 'husnu/bert-base-turkish-128k-cased-finetuned_lr-2e-05_epochs-3'
tokenizer = BertTokenizer.from_pretrained(model_name)
model = BertForQuestionAnswering.from_pretrained(model_name)
# Texto de ejemplo
question = '¿Cuál es la capital de Turquía?'
text = 'La capital de Turquía es Ankara.'
# Tokenizar input
input_ids = tokenizer.encode(question, text)
# Obtener el ID del token del separador
sep_index = input_ids.index(tokenizer.sep_token_id)
# Mensajes de segmentación
segment_ids = [0] * (sep_index + 1) + [1] * (len(input_ids) - sep_index - 1)
# Convertir a tensores de PyTorch
input_tensors = torch.tensor([input_ids])
segment_tensors = torch.tensor([segment_ids])
# Realizar inferencia
with torch.no_grad():
outputs = model(input_tensors, token_type_ids=segment_tensors)
start_scores, end_scores = outputs.start_logits, outputs.end_logits
# Encontrar inicio y fin de la respuesta
all_tokens = tokenizer.convert_ids_to_tokens(input_ids)
start_index = torch.argmax(start_scores)
end_index = torch.argmax(end_scores) + 1
answer = tokenizer.convert_tokens_to_string(all_tokens[start_index:end_index])
print(f'Respuesta: {answer}')
Funcionalidades
- Fine-tuning de BERT con conjunto de datos turco Squad
- Aprendizaje supervisado
- Optimización usando Adam con betas=(0.9,0.999) y epsilon=1e-08
- Tasa de aprendizaje: 2e-05
- Batch de entrenamiento: 8
- Batch de evaluación: 8
- Número de épocas: 3
Casos de uso
- Respuestas a preguntas en turco
- Análisis del texto en turco
- Implementación en sistemas de atención al cliente