Vidu

2024-09-06 17:51:32 178

站点名称：Vidu

官方网址：https://www.vidu.io/text-to-video-ai

访问官网

站点介绍

Vidu 是中国首个长时长、高一致性、高动态性的视频大模型，由生数科技联合清华大学发布。这个模型采用了原创的 U-ViT 架构，融合了 Diffusion（扩散）与 Transformer 技术，能够一键生成长达 16 秒、分辨率高达 1080P 的高清视频内容。Vidu 不仅能够模拟真实物理世界，还拥有丰富的想象力，具备多镜头生成、时空一致性等特点。这对于视频制作、游戏开发、教育、科研等领域都具有广泛的应用。

Vidu的快速突破源自于团队在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果。基于对U-ViT架构的深入理解以及长期积累的工程与数据经验，团队在短短两个月里进一步突破了长视频表示与处理的多项关键技术，研发了Vidu视频大模型，显著提升视频的连贯性和动态性。

作为通用视觉模型，Vidu能够支持生成更加多样化、更长时长的视频内容，同时面向未来，灵活架构将能够兼容更广泛的模态，进一步拓展多模态通用能力的边界。目前，Vidu还处于发布阶段，感兴趣的话可以申请加入其合作伙伴计划。

Vidu 的主要功能特点

文本到视频生成：用户可以通过输入简单的文本提示，快速生成长达16秒的高清视频内容，大大降低了视频制作的技术门槛，使得非专业用户也能轻松制作出高质量的视频。

高分辨率输出：Vidu支持生成分辨率高达1080P的视频，生成的视频具有非常清晰的画质，适合在各种高清显示设备上播放。

多镜头生成能力：Vidu支持同时生成多个镜头视角的视频，能够制作出类似于电影或电视剧中常见的多镜头切换效果，增加了视频的动态感和观赏性。

模拟真实世界：Vidu能够模拟真实世界的物理特性，如物体的运动、光影的变化等，使得生成的视频内容更加逼真。

保持时空一致性：在生成多镜头视频时，Vidu能够保证不同镜头之间的时空关系是连贯的，避免了不同镜头之间出现时空错乱的情况。

技术原理

Vidu的技术原理主要基于以下几个关键技术：

U-ViT架构：这是Vidu的核心技术，它结合了Diffusion技术和Transformer技术。U-ViT架构通过将Transformer的自注意力机制应用于扩散概率模型中，提升了图像和视频生成任务的性能。

ViT（Vision Transformer）：ViT是首个将标准的Transformer block应用于视觉领域的网络。它通过将图像分割成小块（称为patches），然后将这些patches视为序列中的元素（tokens），利用Transformer的自注意力机制来捕获图像的全局依赖关系。

Diffusion技术：这是一种生成模型技术，通过逐步引入噪声并学习如何逆转这个过程来生成高质量的图像或视频。Vidu利用Diffusion技术生成连贯且逼真的视频内容。

U-Net结构：Vidu引入了U-Net的long skip结构，即跳跃连接，这有助于连接low-level feature并加速网络的训练。Long skip connection为低层次特征提供了快捷方式，这对于像素级别的预测任务至关重要。

时间与条件token：Vidu在输入中引入了时间（time）和条件（condition）作为新的token，这些token与图像patches一起输入到Transformer block中，增强了模型对生成过程的控制能力。

多模态扩散模型UniDiffuser：基于U-ViT架构开发的多模态扩散模型，它验证了U-ViT架构在处理大规模视觉任务时的可扩展性。

长视频表示与处理技术：Vidu在U-ViT架构的基础上，进一步突破了长视频表示与处理的关键技术，使得能够生成更长、更连贯的视频内容。

贝叶斯机器学习：在开发过程中，团队利用了贝叶斯机器学习的技术来优化模型性能。

这些技术的融合使得Vidu不仅继承了Transformer模型在处理序列数据方面的强大能力，还结合了Diffusion模型在生成细节丰富、连贯性高的图像和视频方面的优势，从而在视频生成等多模态任务中取得了突破性进展。

生成视频效果展示提示词：画室里的一艘船驶向镜头。 Vidu

提示词：镜头跟随一辆带有黑色车顶行李架的白色老式SUV，它在陡峭的山坡上一条被松树环绕的陡峭土路上加速行驶，轮胎扬起灰尘，阳光照射在SUV上行驶土路，给整个场景投射出温暖的光芒。土路缓缓地蜿蜒延伸至远方，看不到其他汽车或车辆。道路两旁都是红杉树，零星散落着一片片绿意。从后面看，这辆车轻松地沿着曲线行驶，看起来就像是在崎岖的地形上行驶。土路周围是陡峭的丘陵和山脉，上面是清澈的蓝天和缕缕云彩。 Vidu