LayoutLM-Byne-v0.1

Byne

Similitud de oraciones

El nuevo SOTA en recuperación de páginas de documentos visualmente ricos. Con el auge de los modelos multimodales, hay una creciente adopción de aplicar modelos directamente a un documento sin preprocesarlo primero. Esta aproximación es significativamente más robusta que el texto único RAG en un gran subconjunto de documentos, especialmente los visualmente ricos. Sin embargo, hay una falta significativa de investigación centrada en extraer una página relevante de un documento PDF o DOCX. LayoutLM es una solución excelente para estos problemas porque, en su núcleo, es un modelo parecido a BERT, pero es único en su capacidad de incorporar información posicional del texto junto con el texto mismo. Hemos ajustado el modelo con el conjunto de datos DocVQA, mostrando la mejora potencial sobre el actual SOTA. Es importante destacar que el modelo todavía está en fase alfa, por lo que se requiere más trabajo para revelar su potencial.

Como usar

Refiérase al cuaderno de Colab o al post del blog para aprender más!
Para implementar el modelo en un entorno comercial, puede ponerse en contacto con [email protected].

Funcionalidades

Capacidad de incrustar información posicional del texto
Modelo afinado en el conjunto de datos DocVQA
Mejora significativa sobre el SOTA actual en recuperación de páginas

Casos de uso

Recuperación de páginas relevantes de documentos PDF o DOCX
Análisis de documentos visualmente ricos
Clasificación de texto en documentos con mucho contenido visual