360LayoutAnalysis

XiaHan19

Detección de objetos

En la era digital actual, el análisis de la disposición de documentos es uno de los pasos clave en la extracción de información y la comprensión de documentos. El análisis de la disposición de documentos, también conocido como análisis de imagen del documento o análisis de la disposición del documento, se refiere al proceso de identificar y extraer textos, imágenes, tablas y otros elementos de las imágenes escaneadas de documentos. Esta tecnología tiene amplias aplicaciones en el procesamiento automatizado de documentos, el intercambio electrónico de datos, la digitalización de documentos históricos, etc. Los modelos tradicionales de análisis de la disposición suelen tener dificultades para diferenciar con precisión los párrafos de otros elementos de la disposición del documento, lo que limita el procesamiento y la utilización de la información del documento. Sin embargo, el desarrollo de la tecnología de aprendizaje profundo y el reconocimiento de patrones ofrece nuevas oportunidades para el análisis de la disposición de documentos. Mediante conjuntos de datos de entrenamiento, se puede mejorar la capacidad del modelo para comprender la estructura del documento, pero los conjuntos de datos de anotación de alta calidad son fundamentales para entrenar un modelo eficaz. En el análisis de la disposición de documentos, es muy necesario contar con anotaciones precisas, especialmente en los párrafos, ya que afectan directamente a la comprensión semántica del texto y a la extracción de información. Actualmente, en el ámbito del análisis de disposición, los conjuntos de datos open source como CDLA (A Chinese document layout analysis) carecen de anotaciones de párrafos en los escenarios de artículos de investigación. Además, los modelos de análisis de disposición en los escenarios de informes de investigación están relativamente ausentes. Para resolver este problema, mediante la anotación manual, hemos mejorado las etiquetas de los documentos de artículos de investigación y optimizado los datos, y hemos construido un conjunto de datos detallados de análisis de disposición para escenarios de informes de investigación. Aprovechando estos conjuntos de datos anotados, hemos entrenado varios nuevos modelos de análisis de disposición de documentos en chino, que demuestran un rendimiento excelente en conjuntos de pruebas cerrados. El 15 de junio de 2024, abrimos el código de los modelos ligeros de análisis de disposición y sus respectivos sistemas de etiquetas para los escenarios de artículos de investigación e informes de investigación, con el objetivo de identificar los límites de los párrafos y diferenciar con precisión textos, imágenes, tablas, fórmulas y otros elementos, impulsando así el desarrollo industrial. El 28 de junio de 2024, añadimos dos nuevos modelos de análisis de disposición para escenarios de artículos en inglés y escenarios generales, alcanzando un total de 4 modelos open source.

Como usar

Descarga de pesos: 🤗LINK
Método de uso:
from ultralytics import YOLO

image_path = '' # Ruta de la imagen a predecir
model_path = '' # Ruta de los pesos
model = YOLO(model_path)

result = model(image_path, save=True, conf=0.5, save_crop=False, line_width=2)
print(result)

print(result[0].names) # Muestra el mapa id2label
print(result[0].boxes) # Muestra todos los bounding boxes detectados
print(result[0].boxes.xyxy) # Muestra las coordenadas superiores izquierdas e inferiores derechas de todos los bounding boxes detectados
print(result[0].boxes.cls) # Muestra los IDs de las categorías correspondientes a todos los bounding boxes detectados
print(result[0].boxes.conf) # Muestra las confianzas de todos los bounding boxes detectados

Funcionalidades

Cubre tres dominios verticales (artículos en chino, artículos en inglés, informes de investigación en chino) y un modelo para escenarios generales.
Inferencia rápida y ligera (entrenado con yolov8, modelo único de 6.23MB).
El modelo para artículos en chino incluye información de párrafos (no disponible en CDLA).
Modelos únicos entrenados con datos de alta calidad a nivel de decenas de miles para escenarios de informes de investigación en chino y escenarios generales.

Casos de uso

Identificación de límites de párrafos en documentos.
Diferenciación precisa de textos, imágenes, tablas, fórmulas y otros elementos en documentos.
Procesamiento automatizado de documentos.
Intercambio electrónico de datos.
Digitalización de documentos históricos.