Live2Diff: Traducción de Transmisión en Vivo a través de Atención Unidireccional en Modelos de Difusión de Video
Live2Diff es un modelo avanzado diseñado para la traducción de transmisiones en vivo mediante atención unidireccional en modelos de difusión de video. Este modelo incorpora características como la atención temporal unidireccional con un mecanismo de calentamiento, un caché KV de múltiples pasos para la atención temporal durante la inferencia, y uso de prior de profundidad para una mejor consistencia estructural. Además, es compatible con DreamBooth y LoRA para varios estilos, y soportado por TensorRT para mejorar el rendimiento.
Como usar
La evaluación de velocidad se ha realizado en Ubuntu 20.04.6 LTS y Pytorch 2.2.2 con una GPU RTX 4090 y una CPU Intel(R) Xeon(R) Platinum 8352V. Los pasos de eliminación de ruido se establecen como 2.
Resolución y FPS
- 512 x 512 (TensorRT Activado): 16.43 FPS
- 512 x 512 (TensorRT Desactivado): 6.91 FPS
- 768 x 512 (TensorRT Activado): 12.15 FPS
- 768 x 512 (TensorRT Desactivado): 6.29 FPS
Funcionalidades
- Atención temporal unidireccional con mecanismo de calentamiento
- Caché KV de múltiples pasos para la atención temporal durante la inferencia
- Prior de profundidad para mejor consistencia estructural
- Compatible con DreamBooth y LoRA para varios estilos
- Soporte de TensorRT
Casos de uso
- Traducción en tiempo real de videos de rostros humanos
- Traducción en tiempo real de personajes de anime usando entrada de video de pantalla