English | 简体中文
- GPU-Friendly: 最好对GPU内存大小和GPU数量要求较低,比如8卡A100,4KA6000,单卡Rtx4090之类的算力可以训练和推理
- Training-Efficiency : 不需要训练太久即可有较好的效果
- Inference-Efficiency: 推理生成视频时, 长度和分辨率不要求过高, 如3-10s,480p都是可接受的
候选复现论文主要有以下三篇, 来作为后续Sora复现的Baseline, 社区已经(02/29)将OpenDiT和SiT代码Fork到codes文件夹下, 期待贡献者提交PR, 将Baseline代码迁移到Sora复现工作上来. [Update] 03/02, 添加StableCascade codes
- DiT with OpenDiT
- OpenDiT采用分布式训练,生成图片采用8卡A100训练。
- OpenDiT采用的sd的vae编码,采用的是sd的预训练模型,实测出来效果会比VideoGPT的vqvae效果更好。
- Sora Leader做过DALLE3,生成视频 的 解码 是用类似DALLE3的扩散方式, 所以压缩编码的时候应该是DALLE3的 反方向的方式
- SiT
- W.A.L.T(还未release)
- StableCascade
- ToDo: make it as a video-based model with additional temp layer in the near future
...
...
...
我们非常希望你们能够为 Mini Sora 开源社区做出贡献,并且帮助我们把它做得比现在更好!
具体查看贡献指南