Últimos lanzamientos de IA

Esta página se actualiza automáticamente con nuevas herramientas y modelos publicados por el pipeline diario de EligeIA.

Herramientas

Modelos

Skywork/SkyReels-V2-DF-1.3B-540P
Modelo generativo de vídeo de la serie SkyReels-V2 basado en Diffusion Forcing, orientado a generación text-to-video e image-to-video de larga duración a 540P. Esta variante de 1.3B parámetros usa una arquitectura autoregresiva de difusión para extender vídeos a partir de segmentos previos y está pensada para generación cinematográfica con mejor continuidad temporal, seguimiento de instrucciones y consistencia visual.
calcuis/ltxv0.9.5-gguf
Versión cuantizada en formato GGUF del modelo Lightricks/LTX-Video para generación de texto a video. Está orientada a flujos de ComfyUI y gguf-node, con arquitectura PIG, 2B parámetros y variantes de cuantización desde 2 bits hasta 8 bits para ajustar tamaño, memoria y calidad.
calcuis/mochi-gguf
Versión cuantizada en formato GGUF de Mochi, un modelo de texto a video basado en genmo/mochi-1-preview y el repaquetado de Comfy-Org. Incluye el modelo principal, el codificador GGUF y el VAE GGUF para ejecutarlo localmente con gguf-connector o mediante ComfyUI usando gguf-node.
Skywork/SkyReels-V2-T2V-14B-720P
Modelo de generación de video a partir de texto de la serie SkyReels V2, con 14B parámetros y salida recomendada a 720p. Está orientado a síntesis cinematográfica de alta resolución con buena adherencia a instrucciones, consistencia visual y calidad de movimiento. Forma parte de SkyReels V2, un sistema de generación de video que combina MLLM, preentrenamiento multietapa, aprendizaje por refuerzo, SFT de alta calidad y técnicas de Diffusion Forcing para mejorar videos largos y estilo de película.
Skywork/SkyReels-V1-Hunyuan-T2V
SkyReels-V1-Hunyuan-T2V es un modelo abierto de generación de video a partir de texto centrado en personas. Está basado en HunyuanVideo y fue ajustado con decenas de millones de clips de cine, televisión y documentales para producir videos humanocéntricos con expresiones faciales, movimientos naturales, composición cinematográfica, posicionamiento de actores y ángulos de cámara de alta calidad.
mradermacher/zen-voyager-GGUF
Versión GGUF cuantizada de zenlm/zen-voyager, un modelo de 33B parámetros con arquitectura Qwen3 orientado a generación de video a partir de texto y uso conversacional local. El repositorio ofrece cuantizaciones estáticas para ejecutar el modelo con llama.cpp, llama-cpp-python, Ollama, LM Studio, Docker Model Runner, Unsloth Studio, Pi, Hermes Agent y Lemonade. No aparece desplegado en proveedores de inferencia de Hugging Face.
Lightricks/LTX-Video-ICLoRA-pose-13b-0.9.7
Modelo de control de pose para generación de video basado en LTXV_13B_097_DEV. Usa In-Context LoRA para incorporar contexto de video en el proceso de generación, permitiendo control video-a-video sobre un modelo texto-a-video mediante fotogramas de referencia durante la inferencia.
Lightricks/LTX-Video-ICLoRA-depth-13b-0.9.7
Modelo de control de profundidad para generación y edición de video basado en LTXV_13B_097_DEV. Usa In-Context LoRA para condicionar la generación con fotogramas de video de referencia, permitiendo control video-a-video sobre un modelo texto-a-video de Lightricks.
squirrelae/Wan2.2-TI2V-5B-GGUF
Conversión directa en formato GGUF del modelo Wan-AI/Wan2.2-TI2V-5B para generación de video a partir de texto e imagen/texto-video. Es una versión cuantizada de 5B parámetros con arquitectura Wan, pensada para ejecutarse en flujos locales como ComfyUI mediante nodos compatibles con GGUF. Mantiene la licencia Apache 2.0 y las restricciones de uso del modelo original.
city96/FastHunyuan-gguf
Conversión directa a GGUF del modelo FastVideo/FastHunyuan para generación de video a partir de texto. Está pensada para usarse con los nodos nativos de HunyuanVideo en ComfyUI o con el nodo personalizado ComfyUI-GGUF. Al ser una versión cuantizada y no un ajuste fino, mantiene las restricciones y términos de licencia del modelo original de Tencent Hunyuan.
ZuluVision/MoviiGen1.1
MoviiGen 1.1 es un modelo de generación de vídeo texto-a-vídeo ajustado a partir de Wan2.1-T2V-14B, orientado a resultados de calidad cinematográfica. Está diseñado para producir vídeos con estética de cine, buena coherencia visual, alto nivel de detalle, realismo y movimiento natural, con soporte para salidas en 720P y 1080P. Sus autores recomiendan 1080P en formato 21:9 para obtener una apariencia más cinematográfica.
alibaba-pai/Wan2.1-Fun-V1.1-14B-Control
Modelo de generación y control de video de 14B parámetros de la familia Wan2.1-Fun V1.1. Está diseñado para generar videos a partir de texto, imagen de referencia y señales de control visual como Canny, Depth, Pose y MLSD, además de admitir control por trayectoria. Fue entrenado para predicción de video multirresolución en 512, 768 y 1024 píxeles, con secuencias de 81 fotogramas a 16 fps, y soporta prompts multilingües.