mindee/fasterrcnn_mobilenet_v3_large_fpn
mindee
Detección de objetos
El modelo Faster-RCNN basado en la arquitectura MobileNetV3 Large FPN, preentrenado en DocArtefacts. La idea central del autor es unificar la Propuesta de Regiones con el módulo de detección principal de Fast-RCNN.
Como usar
from PIL import Image
import torch
from torchvision.transforms import Compose, ConvertImageDtype, PILToTensor
from doctr.models.obj_detection.factory import from_hub
model = from_hub("mindee/fasterrcnn_mobilenet_v3_large_fpn").eval()
img = Image.open(path_to_an_image).convert("RGB")
# Preprocesamiento
transform = Compose([
PILToTensor(),
ConvertImageDtype(torch.float32),
])
input_tensor = transform(img).unsqueeze(0)
# Inferencia
with torch.inference_mode():
output = model(input_tensor)
Funcionalidades
- Preentrenado en DocArtefacts
- Arquitectura Faster-RCNN
- Unificación de Propuesta de Regiones con el módulo de detección de Fast-RCNN
Casos de uso
- Detección de objetos en tiempo real
- Reconocimiento de texto en documentos
- Captura automática de artefactos en imágenes