Diffusion Models视频生成-博客汇总

0、【论文汇总】Diffusion Models视频生成/视频编辑/可控视频生成/跨模态视频生成

本文总结了Diffusion Models视频生成领域相关的工作，目前共收录142篇，持续更新中。

1、Video Diffusion Models：基于扩散模型的视频生成

扩散模型已经被广泛运用到图像生成、image-to-image转换、时间序列生成、3D点云生成、文本生成、音频生成等领域，谷歌研究院最新的研究成果成功将diffusion models运用到视频生成领域。

2、详细解读 VideoFactory：Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation

VideoFactory提出了一种新颖的交换时空交叉注意机制来加强空间和时间之间的相互作用，并发布了目前最大的视频数据集，包含了130万个文本-视频对。这篇博客详细解读一下这篇论文的创新点，希望能对做扩散模型视频生成的读者有所帮助。

3、文生视频领域SOTA工作Make-A-Video：论文解读和代码赏析

2022年年底Meta AI提出了Make-A-Video，一年过去了依旧是文生视频领域的SOTA工作，在主流数据集上依旧保持着最先进的指标。论文利用了预训练的Text-to-Image模型扩展到Text-to-Video任务，大大降低了视频生成的门槛；论文中提出的伪三维卷积层和伪三维注意力层也被后来的研究广泛借鉴。这篇博客详细解读Make-A-Video的论文和源代码，并给出一些博主的思考和见解。

4、Diffusion Models可控视频生成Control-A-Video：论文和源码解读

Diffusion视频生成的时间连贯性问题是可控视频生成问题最大的挑战。Control-A-Video提出的时空一致性建模法、残差噪声初始化法和首帧定型法能有效解决这一问题，非常值得我们借鉴。博主详细解读论文和代码，并给出一些自己的思考。

5、【Diffusion 视频生成】Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation

Tune-A-Video提出了一个新的文本-视频任务：One-Shot视频生成，能够在视频对象编辑、背景编辑、风格转换、可控生成等领域取得了非常好的效果。这篇博客详细解读Tune-A-Video的论文和代码，希望能对做扩散模型视频生成的读者们有所帮助。

6、文生视频领域SOTA工作 Show-1：论文和代码解读

最近的text-to-video的论文Show-1在MSR-VTT测评数据集上取得了FVD和CLIPSIM指标上的第一名，FID指标上的第二名。采用混合模型的方法，结合了基于像素的VDM和基于潜在空间的VDM进行文本到视频的生成，不仅能取得很高的生成指标，还能大大降低推理资源消耗。这篇博客详细解读一下这篇论文和代码。

7、【CVPR 2023】解读VideoFusion：基于噪声共享机制的视频生成

达摩院开源的VideoFusion是为数不多同时开源模型和推理代码的视频生成工作，通过设计噪声分解机制有效提高视频的时空连贯性，在一些关键指标上远超GAN-based方法和2022年谷歌的VDM。更重要的是，Diffusers库以此为基础，写了关键的两个视频生成基础类，堪称行业标准。这篇博客就详细解读一下这篇经典的论文。

8、【NeurIPS 2023】并行多模态视频生成大模型CoDi

目前视频生成的大部分工作都是只能生成无声音的视频，距离真正可用的视频还有不小的差距。CoDi提出了一种并行多模态生成的大模型，可以同时生成带有音频的视频，距离真正的视频生成更近了一步。相信在不远的将来，可以AI生成的模型可以无缝平替抖音等平台的短视频。这篇博客详细解读一下这篇论文《Any-to-Any Generation via Composable Diffusion》。

9、解读VideoComposer：多模态融合视频生成

达摩院出品的VideoComposer，是Composer家族的重要成员，开辟了组合多种模态特征生成视频的先河。重要的是开源了推理代码和模型，利于后人研究。这篇博客详细解读一下VideoComposer论文原理。

10、解读电影级视频生成模型 MovieFactory

MovieFactory是第一个全自动电影生成模型，可以根据用户输入的文本信息自动扩写剧本，并生成电影级视频。其中针对预训练的图像生成模型与视频模型之间的gap提出了微调方法非常值得借鉴。这篇博客详细解读一下这篇论文《MovieFactory: Automatic Movie Creation from Text using Large Generative Models for Language and Images》

11、解读文生视频大模型ModelScopeT2V技术报告

ModelScopeT2V是17B的文生视频大模型，由阿里巴巴达摩院发布，且模型和代码完全开源。当中提出的多层时空机制和多帧训练法非常值得借鉴。这篇博客详细解读一下ModelScopeT2V背后的技术。

12、解读Sketching the Future (STF)：零样本条件视频生成

基于草图的视频生成目前是一个基本无人探索过的领域，videocomposer做过一些简单的探索。Sketching the Future从零样本条件视频生成出发，出色的完成了这一任务。这篇博客就解读一下《Sketching the Future (STF): Applying Conditional Control Techniques to Text-to-Video Models》。

#扩散模型#

Diffusion Model 文章被收录于专栏

专注探索Diffusion Models、Score-based Generative Models等深层生成式模型，持续更新分享最前沿技术。

全部评论

推荐最新楼层

08-14 18:26

门头沟学院测试工程师

家里人一直跟我说要给领导买点东西，搞好关系

家里人这种思想对吗？最近找到了某大厂算法岗的实习，家里人一直跟我说要给领导买点东西，搞好关系，我真的搞不清楚他们这种思想到底怎么来的，真的很烦他们教我做事，他们总觉得自己是对的，我不照着他们的想法做，就觉得我态度不对，之前找实习也是只会嘴巴上对我说你要加油，你要努力，但是根本不知道我背后付出了多少努力，真的好烦被教做事的感觉。

青春运维少年不会梦到...：小时候老爸每次外出打工，我都会说注意安全，可是我真的懂老爸的工作吗，一个小学文凭的人出去打工能有什么安全的工作，可是老爸还是慈祥的回应我，仿佛每天能安全回家都归功于我的祈福。到了现在，我跨越3000多公里去了陌生的城市，老爸还是那个老爸，只不过现在多了问我的情况，会问我适应新城市吗，适应工作强度吗，到最后真的好奇，问我这个工作是干啥的；老爸没文化，不知道计算机网络有七层结构，也不知道云saas订阅，我只能说，就像汽车修理厂一样，我是那个修车的师傅。老爸可能觉得真的理解不了我的工作，之后也就没多问了。不过仍然还是给我传授他的经验，对于老爸来说，他也知道我做的是他难以理解的工作，知道小县城的那套江湖规矩难以闯荡大城市，但是他依旧会关心我。。。