mindee/fasterrcnn_mobilenet_v3_large_fpn

mindee

Detección de objetos

El modelo Faster-RCNN basado en la arquitectura MobileNetV3 Large FPN, preentrenado en DocArtefacts. La idea central del autor es unificar la Propuesta de Regiones con el módulo de detección principal de Fast-RCNN.

Como usar

from PIL import Image
import torch
from torchvision.transforms import Compose, ConvertImageDtype, PILToTensor
from doctr.models.obj_detection.factory import from_hub

model = from_hub("mindee/fasterrcnn_mobilenet_v3_large_fpn").eval()

img = Image.open(path_to_an_image).convert("RGB")

# Preprocesamiento
transform = Compose([
PILToTensor(),
ConvertImageDtype(torch.float32),
])

input_tensor = transform(img).unsqueeze(0)

# Inferencia
with torch.inference_mode():
    output = model(input_tensor)

Funcionalidades

Preentrenado en DocArtefacts
Arquitectura Faster-RCNN
Unificación de Propuesta de Regiones con el módulo de detección de Fast-RCNN

Casos de uso

Detección de objetos en tiempo real
Reconocimiento de texto en documentos
Captura automática de artefactos en imágenes