2017年,赵天奇几乎用一整年时间调研了全国各地的动画公司。他发现,动画片的制作成本中,80%来自K动画(Keyframe,设置关键帧),20%来自建模,由此确定了数字人的大方向。
数字人有2D、3D之分,考虑到影视作品的本质是拍世界,不能只是简单拼接画面镜头,世界是三维的,因此从第一天起就要走3D路线。
3D数字人制作也有“生成”与“捕捉”两条路线之分。2016年的AI还不能直接生成3D内容,GAN能够生成2D图像,但生成效果“一眼假”,根本无法支持影视级制作,由此最终确定了“3D捕捉数字人”路线。
但当时主流的3D捕捉技术大多依赖于大量体感设备,真人佩戴做出动作,再录入数据。整套流程下来,光是硬件设备的采购成本至少就要百万级,很多个人创作者显然没有这些资源储备。
因此,要想真正实现“人人都能做影视”,最理想的情况是,直接用一个普通摄像头完成面部表情、手势、肢体动作的捕捉与驱动。“此前很少有人想到这一点,因为这需要从真实的影视制作流程出发,倒推出这个技术方向。”赵天奇说。
最终,赵天奇决定走这条从没人走过的路。
没人走过意味着所有的坑都要亲自踩,从数据到表征,到整个算法框架都要从零开始,只能从头自己做。赵天奇在公司建立了一个名为“科幻成真”的实验室,负责全部研发工作。
道路是曲折的,但结局是光明的。2021年,聚力维度终于实现用单目摄像头完成高级别数字人的表情、手势、动作捕捉。赵天奇表示,要做成这件事,不仅需要技术创新,更需要对影视制作的深刻理解。此前参与院线电影制作的经历,无形中也成为了聚力维度成功的踏脚石。
赵天奇透露,这五年间,也曾有投资人或潜在客户抛出橄榄枝,表示愿意投入足够的资金,让聚力维度做一些更快看到回报的事情。
“当时我比现在还“轴”,几乎天天都在拒绝。”赵天奇坦言,“我认为‘AI+’一切都有机会,但我只想找一个我认为市场大且我感兴趣的方向来做。”
做工具,不做玩具
ChatGPT发布后,赵天奇意识到,或许可以重拾之前被放弃的3D生成路线了。
赵天奇带着团队第一时间测试了ChatGPT的能力,明显感到GPT-3.5的效果已经远超GPT-2。2023年年中,聚力维度便开始探索3D视频生成模型。
直到今年2月,Sora一经发布便成为行业标杆,点燃了全球创业者对多模态模型的兴趣,也让60s的长视频生成成为各家企业的竞争方向。
不过,在和影视行业内部交流过后,赵天奇发现,对于影视制作本身来说,卷时长和卷参数都没有意义,真正的痛点在于能否有一个模型,实现多个镜头间的稳定可控。
“实际的影视制作中长镜头非常少,一个镜头可能几秒钟就够了,大家更需要两个镜头之间的稳定可控。”赵天奇说。例如两个人物角色正在对话,镜头随着对话在两人之间切换,如果镜头切换后两个镜头中的世界变得前后不一致,观众就会“出戏”,无法形成一个逻辑完整的影视作品。
这种符合世界运行规律的、稳定可控的内容生成,恰恰是Sora所代表的2D路线最大的难点。“从技术角度来说,2D生成模型和3D生成模型是两条完全不同的技术路线。2D生成的难点在于单个及多个画面间的稳定可控,而3D生成路线的难点在于3D数据的获取。”赵天奇表示。
而聚力维度此前攻克2D转3D以及单目摄像头3D捕捉技术让他们积累了大量3D数据,这便迈出了3D生成模型最艰难的第一步。
2024年5月,聚力维度联合华为云发布国产多模态3D视频大模型——赛娲大模型。该模型支持文字、声音、视频等多模态输入,可以生成3D AI演员实现真人级别的AI表演;支持任意时长;同时生成视频中的3D对象在不同镜头与运动中完全一致,可精细化编辑,能准确可控地讲出影视故事,真正实现全流程AI影视制作,可用于商业级的影视、短剧、广电节目制作等。
“我们的思路是先造人、造世界,再让这个世界的人进行表演,那他的表演逻辑自然是有一致性的,没有能力发生变化了。”赵天奇说。
有了技术,接下来的问题是,如何切入产业?
目前市面上的AI产品大致有两类落地思路:一类是从“玩具”到“工具”,将产品开放给C端客户,搜集到足够多的用户需求和数据后,从中筛选出更聚焦的产业机会,进一步落地产品;一类则是直接瞄准工业级机会,打造“工具”型产品,提供全新的生产力。
赵天奇选择了后者,让AI成为影视制作行业真正的生产力工具。
影视行业覆盖极广,院线电影、电视剧、综艺节目、广告科教、网剧、网络大电影、短剧等均可涵盖在内,具体选择什么方向切入呢?
聚力维度选择了近两年势头最猛的短剧。
“短剧是对成本最敏感,上下游分工最清晰,且上升势头最快的场景。”赵天奇说。公开数据显示,2023年中国微短剧市场规模约374亿元,同比上升约268%,预计今年将超过500亿元,到2027年市场规模有望达到1000亿元。
据赵天奇透露,聚力维度未来将和高校合作,对编导传媒方向的学生展开联合培训。“目前的AI还无法代替导演,AI工具的核心价值是更高效地实现创作者的创意。而学生群体数量大、创作需求旺盛,更容易接受新事物,从就业角度来看,掌握AI技能也为他们提供了更多就业可能。”
不过,在赵天奇看来,今天的市场上,还没有真正的“AI短剧”,“AI短剧”也尚未形成一个真正的产业。未来,他希望能够实现工业级真AI影视制作。“工业级”要求最终作品不穿帮,让观众看不出内容是AI生成的,且愿意为之付费;而“真AI”要求整个影视生产制作流程中绝大多数成本都由AI完成。
未来,在落地产业的过程中,随着产品不断成熟,积累一定用户规模,整个行业也逐渐形成共识后,聚力维度会考虑将产品面向C端开放。“在行业还没有形成一定规模和共识,尤其在目前的资本环境下,直接面向to C是一个不太符合商业规律的选择。”他解释道。
影视行业最大的痛苦来源于“不能”
关于AI对内容行业的影响,舆论有不少批判的声音。国内外均有媒体直言,“互联网正在被AI生产的垃圾内容侵占”。
“某种程度上,这是一种传统思维的陷阱。”赵天奇表示。
毕竟,即使没有AI,在人类创作者主导的UGC内容生产模式下,互联网上依然存在大量低质内容。在赵天奇看来,“用AI提高内容生产效率”和“对AI进行内容管控”是两个并行存在的问题,聚力维度的目标是实现前者。
“人类最大的痛苦来源于‘不能’。”赵天奇说,这才是影视行业多年的痛苦来源。
赵天奇和影视行业内部沟通时发现,影视行业的最大痛点在于,生产力约束导致整个行业效率很低,是一个不健康的劳动密集型产业。同时,内容创作和受众的消费喜好也有很大不确定性,制作方便需要更高的投入来弥合可能的风险。
以电影制作为例,一部电影在商业上是否成功的标准是“票房”,为了实现高票房,制作方需要组建豪华团队,包括知名导演编剧,当红流量演员,最好的拍摄、后期以及宣发团队,以此来尽可能吸引更多人贡献票房。在此基础上,电影制作周期长达数月到数年不等,投入成本达到百万级、千万级,甚至上亿级。
正如赵天奇所言:“电影是奢侈品,本质上是一个投入越高、风险越低的事情。”即使将最好的资源都堆在一部电影上,电影上映后,依然会出现票房爆冷的情况,前期投入的大量时间、资源最终都打了水漂。
这就导致制作电影的权利被少数人垄断,很多编导、演艺方向的学生毕业即失业,有才华的创作者苦于缺少优质资源而无法实现自己的创意。“很多人上学的时候都想当导演,但实际情况是,假设一家动画公司有300人,可能只有两个导演,因为必须有其他298个人去手K动画,才能让两个导演把自己的故事做出来。”
而在AI的出现,则有可能解放更多人的创作力,当每个创作者都能够将自己的创意转化为一部影视作品,整个内容市场的蛋糕越来越大,好内容的产量自然会随之增加。
“解放生产力永远都是正确的。现在我只怕AI还不够强,还没有达到解放生产力的能力。”赵天奇表示,“我认为最理想的生产力发展方向,是让一件高价值的事情,以低成本的方式去做;让一个人创造的价值,服务于世界上其他几十亿人。