DictaBERT: Un conjunto BERT de última generación para el hebreo moderno

dicta-il
Pregunta y respuesta

Modelo de lenguaje de última generación para hebreo, lanzado aquí. Este es el modelo sintonizado finamente para la tarea de respuesta a preguntas utilizando el conjunto de datos HeQ. Para los modelos bert-base para otras tareas, consulte aquí.

Como usar

Uso de muestra:

from transformers import pipeline

oracle = pipeline('question-answering', model='dicta-il/dictabert-heq')

context = 'בניית פרופילים של משתמשים נחשבת על ידי רבים כאיום פוטנציאלי על הפרטיות. מסיבה זו הגבילו חלק מהמדינות באמצעות חקיקה את המידע שניתן להשיג באמצעות עוגיות ואת אופן השימוש בעוגיות. ארצות הברית, למשל, קבעה חוקים נוקשים בכל הנוגע ליצירת עוגיות חדשות. חוקים אלו, אשר נקבעו בשנת 2000, נקבעו לאחר שנחשף כי המשרד ליישום המדיניות של הממשל האמריקאי נגד השימוש בסמים (ONDCP) בבית הלבן השתמש בעוגיות כדי לעקוב אחרי משתמשים שצפו בפרסומות נגד השימוש בסמים במטרה לבדוק האם משתמשים אלו נכנסו לאתרים התומכים בשימוש בסמים. דניאל בראנט, פעיל הדוגל בפרטיות המשתמשים באינטרנט, חשף כי ה-CIA שלח עוגיות קבועות למחשבי אזרחים במשך עשר שנים. ב-25 בדצמבר 2005 גילה בראנט כי הסוכנות לביטחון לאומי (ה-NSA) השאירה שתי עוגיות קבועות במחשבי מבקרים בגלל שדרוג תוכנה. לאחר שהנושא פורסם, הם ביטלו מיד את השימוש בהן.'
question = 'כיצד הוגבל המידע שניתן להשיג באמצעות העוגיות?'

oracle(question=question, context=context)

Salida:

{
"score": 0.998887836933136,
"start": 101,
"end": 114,
"answer": "באמצעות חקיקה"
}

Funcionalidades

Modelo de lenguaje de última generación para hebreo moderno
Sintonizado finamente para la tarea de respuesta a preguntas
Utiliza el conjunto de datos HeQ
Implementado usando Transformers y PyTorch

Casos de uso

Responder preguntas basadas en un contexto dado en hebreo
Mejorar la comprensión del lenguaje hebreo en aplicaciones de IA
Desarrollar aplicaciones interactivas que necesiten interpretar el hebreo