Live2Diff: Traducción de Transmisión en Vivo a través de Atención Unidireccional en Modelos de Difusión de Video

Leoxing
Texto a video

Live2Diff es un modelo avanzado diseñado para la traducción de transmisiones en vivo mediante atención unidireccional en modelos de difusión de video. Este modelo incorpora características como la atención temporal unidireccional con un mecanismo de calentamiento, un caché KV de múltiples pasos para la atención temporal durante la inferencia, y uso de prior de profundidad para una mejor consistencia estructural. Además, es compatible con DreamBooth y LoRA para varios estilos, y soportado por TensorRT para mejorar el rendimiento.

Como usar

La evaluación de velocidad se ha realizado en Ubuntu 20.04.6 LTS y Pytorch 2.2.2 con una GPU RTX 4090 y una CPU Intel(R) Xeon(R) Platinum 8352V. Los pasos de eliminación de ruido se establecen como 2.

Resolución y FPS

  • 512 x 512 (TensorRT Activado): 16.43 FPS
  • 512 x 512 (TensorRT Desactivado): 6.91 FPS
  • 768 x 512 (TensorRT Activado): 12.15 FPS
  • 768 x 512 (TensorRT Desactivado): 6.29 FPS

Funcionalidades

Atención temporal unidireccional con mecanismo de calentamiento
Caché KV de múltiples pasos para la atención temporal durante la inferencia
Prior de profundidad para mejor consistencia estructural
Compatible con DreamBooth y LoRA para varios estilos
Soporte de TensorRT

Casos de uso

Traducción en tiempo real de videos de rostros humanos
Traducción en tiempo real de personajes de anime usando entrada de video de pantalla