bert-base-uncased-mrpc

Intel

Clasificación de texto

Este modelo es una versión ajustada de bert-base-uncased en el conjunto de datos GLUE MRPC. El conjunto de datos GLUE MRPC, del Corpus de Parafraseología de Investigación de Microsoft (Dolan & Brockett, 2005) es un corpus de pares de oraciones extraídas automáticamente de fuentes de noticias en línea, con anotaciones humanas para determinar si las oraciones en el par son semánticamente equivalentes. Es un modelo preentrenado en inglés utilizando un objetivo de modelado de lenguaje enmascarado (MLM). Fue introducido en el artículo BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Este modelo, bert-base-uncased-mrpc, está en minúsculas: no diferencia entre 'english' y 'English'. El modelado de lenguaje enmascarado predice un token enmascarado en una secuencia y el modelo puede atender tokens bidireccionalmente, lo que significa que tiene acceso completo a los tokens a la izquierda y a la derecha. El modelado de lenguaje enmascarado es excelente para tareas que requieren una buena comprensión contextual de una secuencia completa. BERT es un ejemplo de un modelo de lenguaje enmascarado. Para este modelo, no necesitas etiquetas (también conocido como una tarea no supervisada) porque la siguiente palabra (MLM) es la etiqueta.

Como usar

from transformers import BertTokenizer, BertModel
tokenizer = BertTokenizer.from_pretrained('Intel/bert-base-uncased-mrpc')
model = BertModel.from_pretrained('Intel/bert-base-uncased-mrpc')
text = 'The inspector analyzed the soundness in the building.'
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

# Print BaseModelOutputWithPoolingAndCrossAttentions and pooler_output
#print('Tokenized Text: ', tokenizer.tokenize(text))
#print('Token IDs: ', tokenizer.convert_tokens_to_ids(tokenizer.tokenize(text)))

# Print tokens in text
encoded_input['input_ids'][0]
tokenizer.convert_ids_to_tokens(encoded_input['input_ids'][0])

Funcionalidades

Modelado de lenguaje enmascarado (MLM): tomando una oración, el modelo enmascara aleatoriamente el 15% de las palabras en la entrada, luego ejecuta toda la oración enmascarada a través del modelo y tiene que predecir las palabras enmascaradas. Esto es diferente de las redes neuronales recurrentes tradicionales (RNN) que generalmente ven las palabras una detrás de la otra, o de los modelos autorregresivos como GPT que internamente enmascaran los tokens futuros. Permite al modelo aprender una representación bidireccional de la oración.
Predicción de la siguiente oración (NSP): el modelo concatena dos oraciones enmascaradas como entradas durante el preentrenamiento. A veces corresponden a oraciones que estaban una al lado de la otra en el texto original, a veces no. El modelo tiene que predecir si las dos oraciones se seguían entre sí o no.

Casos de uso

Clasificación de texto
Predicción de la siguiente oración
Comprensión contextual de secuencias completas