
界面新闻记者 | 陈振芳
9月6日上昼,在界面新闻举办的2024 REAL科技大会上, 商汤数字文娱管事部总司理栾青在演讲中先容,商汤为AI大模子全所在布局,阴事算力基础层、AI模子层与表层应用。
商汤大安装料理的算力收场了寰宇联网的斡旋接济,在上海、深圳、广州、福州、济南、重庆等地皆拓展了新的操办节点,截止2024年7月,总算力鸿沟高达20000 petaFLOPS ,已有超5.4万块GPU。
本年7月,商汤发布“日日新5o”模子,交互体验对标GPT-4o,收场全新AI交互模式。该模子不详整合跨模态信息,通过基于声息、文本、图像和视频等多种阵势,呈施行时的流式多模态交互。
在视频生成领域,商汤在7月发布首个“可控”东谈主物视频生成大模子Vimi,该模子主要面向C端用户,赞成聊天、唱歌、摆动等多种文娱互动场景。Vimi可生成长达1分钟的单镜头东谈主物类视频,画面成果不会跟着时候的变化而劣化或失真,通过一张随便立场的像片就能生成和辩论作为一致的东谈主物类视频,通过已有东谈主物视频、动画、声息、笔墨等多种元素进行初始。
栾青提议,2024年将成为AI视频的应用元年,异日三到五年,更多应用场景将跟着模子身手提高和推理本钱下落逐步解锁。
其次,AI视频生成将重塑传统视频制作职责,整合音视频创作的过程措施变为一个全体,裁汰AI视频本色的制作门槛,并以全新视频交互界面展现。
往常十几年,视频产业一直束缚地发展,制作一个视频从几百东谈主的团队,精简至几十个东谈主的网剧团队,再到个东谈主也不错创作短视频。时间鼓动下,视频团队和制作时候束缚精简,而视频数目却在指数级的爆增,东谈主类的破钞风尚从仍是的看案牍、图片、新闻,酿成了看视频。
栾青以为,当视频的生成速率更快,以至达到及时生成视频,AI不详带来新的交互体验,举例通过算法自动地限制东谈主物作为,及时可交互的视频。
现时,AI视频生成有两大标的,一是用笔墨领导生成视频;另一个则是用其他信号,比如可控的逻辑性信号。举例动画打算师会捕捉东谈主体和当然信号,再让东谈主工智能学习,最终完成。这么生成的东谈主物不仅合理,还能跟着可控的信号进行变化。
栾青也提到,AI视频大模子在东谈主物类视频生成上存在三大挑战:东谈主物作为、情态难以精准限制,出成果仅靠大皆“抽卡” ;东谈主物身份平静性不高,“频频换长相” ;仅赞成平静生成3-4秒时长,难以餍足需求。因此,闲居视频创作尚未达到可用的阶段。
“现时东谈主们每天看到的视频80%皆是东谈主物为主题的视频。”
栾青先容,商汤正在尝试用APP匡助用户来生成视频写照大片,应用AI算法限制运镜、光影变化、东谈主物布景,让本色变得更信得过和当然。举例用户输入一张像片,大模子产物也不错用不同的动画方式去制作本色,让本色阵势更为丰富。
栾青以为,跟着AGI时间在视频领域的长远世博shibo登录入口,除了分娩着力的变化,更多的是全新体验。大模子的身手不错让平庸东谈主更好的进行创作。
