Portuguese BERT large cased QA (Question Answering), finetuned on SQUAD v1.1

pierreguillou
Pregunta y respuesta

El modelo fue entrenado en el conjunto de datos SQUAD v1.1 en portugués del grupo Deep Learning Brasil. El modelo de lenguaje utilizado es el BERTimbau Large (también conocido como 'bert-large-portuguese-cased') de Neuralmind.ai. BERTimbau es un modelo BERT preentrenado para el portugués brasileño que alcanza desempeños de vanguardia en tres tareas de procesamiento de lenguaje natural: reconocimiento de entidades nombradas, similitud textual de oraciones y reconocimiento de implicación textual. Está disponible en dos tamaños: Base y Large.

Como usar

import transformers
from transformers import pipeline

# fuente: https://pt.wikipedia.org/wiki/Pandemia_de_COVID-19
context = r'''
A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de COVID-19,
uma doença respiratória causada pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2).
O vírus tem origem zoonótica e o primeiro caso conhecido da doença remonta a dezembro de 2019 em Wuhan, na China.
Em 20 de janeiro de 2020, a Organização Mundial da Saúde (OMS) classificou o surto
como Emergência de Saúde Pública de Âmbito Internacional e, em 11 de março de 2020, como pandemia.
Em 18 de junho de 2021, 177 349 274 casos foram confirmados em 192 países e territórios,
com 3 840 181 mortes atribuídas à doença, tornando-se uma das pandemias mais mortais da história.
Os sintomas de COVID-19 são altamente variáveis, variando de nenhum a doenças com risco de morte.
O vírus se espalha principalmente pelo ar quando as pessoas estão perto umas das outras.
Ele deixa uma pessoa infectada quando ela respira, tosse, espirra ou fala e entra em outra pessoa pela boca, nariz ou ojos.
Ele também pode se espalhar através de superfícies contaminadas.
As pessoas permanecem contagiosas por até duas semanas e podem espalhar o vírus mesmo se forem assintomáticas.
'''

model_name = 'pierreguillou/bert-large-cased-squad-v1.1-portuguese'
nlp = pipeline('question-answering', model=model_name)

question = 'Quando começou a pandemia de Covid-19 no mundo?'

result = nlp(question=question, context=context)

print(f"Answer: '{result['answer']}', score: {round(result['score'], 4)}, start: {result['start']}, end: {result['end']}")

# Answer: 'dezembro de 2019', score: 0.5087, start: 290, end: 306
from transformers import AutoTokenizer, AutoModelForQuestionAnswering
  
tokenizer = AutoTokenizer.from_pretrained('pierreguillou/bert-large-cased-squad-v1.1-portuguese')
model = AutoModelForQuestionAnswering.from_pretrained('pierreguillou/bert-large-cased-squad-v1.1-portuguese')

# Or just clone the model repo:
git lfs install
git clone https://huggingface.co/pierreguillou/bert-large-cased-squad-v1.1-portuguese

# if you want to clone without large files – just their pointers
# prepend your git clone with the following env var:

GIT_LFS_SKIP_SMUDGE=1

Funcionalidades

Reconocimiento de entidades nombradas
Similitud textual de oraciones
Reconocimiento de implicación textual

Casos de uso

Reconocimiento de entidades nombradas
Similitud textual en oraciones
Reconocimiento de implicación textual
Responder preguntas específicas basadas en el contexto dado