Potat 1️⃣

camenduru

Texto a video

Primer modelo de texto a video de código abierto en resolución 1024x576 🥳. Prototipo entrenado con 2197 clips y 68388 cuadros etiquetados utilizando salesforce/blip2-opt-6.7b-coco. Este modelo ha sido entrenado con una GPU LambdaLabs 1xA100 (40GB).

Como usar

[Potat 1️⃣](https://huggingface.co/camenduru/potat1) Info

Modelo prototipo
Entrenado con https://lambdalabs.com ❤ 1xA100 (40GB)
2197 clips, 68388 cuadros etiquetados ( salesforce/blip2-opt-6.7b-coco )
train_steps: 10000

Dataset & Config

https://huggingface.co/camenduru/potat1_dataset/tree/main

Fine-Tuning

https://github.com/Breakthrough/PySceneDetect
https://github.com/ExponentialML/Video-BLIP2-Preprocessor
https://github.com/ExponentialML/Text-To-Video-Finetuning
https://github.com/camenduru/Text-To-Video-Finetuning-colab

Base Model

https://huggingface.co/damo-vilab/modelscope-damo-text-to-video-synthesis
https://www.modelscope.cn/models/damo/text-to-video-synthesis

Funcionalidades

Modelo de texto a video de código abierto
Resolución 1024x576
Entrenado con 2197 clips y 68388 cuadros etiquetados
Utiliza salesforce/blip2-opt-6.7b-coco

Casos de uso

Conversión de texto a video
Generación de videos a partir de descripciones textuales
Aplicaciones creativas y artísticas