Potat 1️⃣
camenduru
Texto a video
Primer modelo de texto a video de código abierto en resolución 1024x576 🥳. Prototipo entrenado con 2197 clips y 68388 cuadros etiquetados utilizando salesforce/blip2-opt-6.7b-coco. Este modelo ha sido entrenado con una GPU LambdaLabs 1xA100 (40GB).
Como usar
[Potat 1️⃣](https://huggingface.co/camenduru/potat1) Info
Modelo prototipo
Entrenado con https://lambdalabs.com ❤ 1xA100 (40GB)
2197 clips, 68388 cuadros etiquetados ( salesforce/blip2-opt-6.7b-coco )
train_steps: 10000
Dataset & Config
https://huggingface.co/camenduru/potat1_dataset/tree/main
Fine-Tuning
https://github.com/Breakthrough/PySceneDetect
https://github.com/ExponentialML/Video-BLIP2-Preprocessor
https://github.com/ExponentialML/Text-To-Video-Finetuning
https://github.com/camenduru/Text-To-Video-Finetuning-colab
Base Model
https://huggingface.co/damo-vilab/modelscope-damo-text-to-video-synthesis
https://www.modelscope.cn/models/damo/text-to-video-synthesis
Funcionalidades
- Modelo de texto a video de código abierto
- Resolución 1024x576
- Entrenado con 2197 clips y 68388 cuadros etiquetados
- Utiliza salesforce/blip2-opt-6.7b-coco
Casos de uso
- Conversión de texto a video
- Generación de videos a partir de descripciones textuales
- Aplicaciones creativas y artísticas