← 返回目录


商汤发布首个「可控」人物视频生成大模型 Vimi,Vimi 大模型应用了哪些关键性技术?

钻研人类记忆,探索复习算法。改善教育公平,践行自由学习。

23 👍 / 2 💬

问题描述

7月4日,界面新闻获悉,商汤发布首个“可控”人物视频生成大模型Vimi,该模型主要面向C端用户,支持聊天、唱歌、舞动等多种娱乐互动场景。商汤方面称,Vimi可生成长达1分钟的单镜头人物类视频,画面效果不会随着时间的变化而劣化或失真,Vimi基于商汤日日新大模型,通过一张任意风格的照片就能生成和目标动作一致的人物类视频,可通过已有人物视频、动画、声音、文字等多种元素进行驱动。

商汤发布首个“可控”人物视频生成大模型Vimi

首个?我同学上个月就开源了他们的可控视频生成模型 ControlNeXt

dvlab-research/ControlNeXt: Controllable video and image Generation, SVD, Animate Anyone, ControlNet, LoRA (github.com)https://www.zhihu.com/video/1793672973791678464https://www.zhihu.com/video/1793673014547705859

这下又新闻学魅力时刻了。

具体的技术介绍还在待发表的论文中,敬请期待。


← 返回目录