LayoutLM-Byne-v0.1
El nuevo SOTA en recuperación de páginas de documentos visualmente ricos. Con el auge de los modelos multimodales, hay una creciente adopción de aplicar modelos directamente a un documento sin preprocesarlo primero. Esta aproximación es significativamente más robusta que el texto único RAG en un gran subconjunto de documentos, especialmente los visualmente ricos. Sin embargo, hay una falta significativa de investigación centrada en extraer una página relevante de un documento PDF o DOCX. LayoutLM es una solución excelente para estos problemas porque, en su núcleo, es un modelo parecido a BERT, pero es único en su capacidad de incorporar información posicional del texto junto con el texto mismo. Hemos ajustado el modelo con el conjunto de datos DocVQA, mostrando la mejora potencial sobre el actual SOTA. Es importante destacar que el modelo todavía está en fase alfa, por lo que se requiere más trabajo para revelar su potencial.
Como usar
Refiérase al cuaderno de Colab o al post del blog para aprender más!
Para implementar el modelo en un entorno comercial, puede ponerse en contacto con [email protected].
Funcionalidades
- Capacidad de incrustar información posicional del texto
- Modelo afinado en el conjunto de datos DocVQA
- Mejora significativa sobre el SOTA actual en recuperación de páginas
Casos de uso
- Recuperación de páginas relevantes de documentos PDF o DOCX
- Análisis de documentos visualmente ricos
- Clasificación de texto en documentos con mucho contenido visual