Stable Video Diffusion 可使用图片生成视频

Stability AI 宣布 Stable Video Diffusion 基于现有 Stable Diffusion 文字到图像 AI 模型可以使用图片生成视频，模型处于研究预览阶段，使用者需同意特定使用条款。

Stable Video Diffusion 有两种模型，SVD 和SVD-XT。SVD 能将静态图像转为 14 帧576 × 1024 的视频。

SVD-XT 使用相同架构，但帧数提高到 24 帧，两者均能以每秒 3~30 帧速度生成视频。根据白皮书，SVD 和 SVD-XT 最初以数百万视频数据库训练，然后用数十万至百万小型视频数据微调。

但视频数据来源不清楚，可能造成 Stability AI 及用户使用权的法律和道德挑战。

尽管如此，Stable Video Diffusion 技术仍有限制，如无法产生静态或慢动作影片，不能用文字控制，无法清晰渲染文字，也不能正确产生人脸和人物。

Stable Video Diffusion 推出也引发担忧，尤其可能滥用的风险。模型似乎没有内建内容过滤器，可能拿去制作不当内容。

Stability AI 表示，模型有很高扩展性，并可适用产生物体 360 度图等。计划推出一系列基于 SVD 和 SVD-XT 的新模型，最终目标似乎是商业化，潜在应用领域有广告、教育、娱乐等。

评论 (0)