最近几天,赵本山伦敦腔接受采访的视频火了。网友们惊呼:铁岭已经国际化到这种程度了么?!无独有偶,本山大叔之后,霉霉讲中文谈自己专辑的视频也惊到了各路粉丝 —— 当然,并不是他们突然学会了英语/中文,这都是AI“捣的鬼”。
这些视频和原片相比,不仅语言转换的非常地道,声线也几乎相同,甚至连视频中人物的口型都能无缝衔接,也难怪网友们大惊失色:这是要砸了配音演员和翻译们的饭碗呀。而除了霉霉和赵本山,其他中外名人也纷纷秀起了自己“刚学的”外语,赫敏、憨豆、甚至连蔡明、郭德纲都给大家来了个“开口跪”。
这些转换后的视频给网友们最大的冲击莫过于几乎没有传统译制片的腔调,而且由于声线的缘故,真人配音也很难达到这种效果。甚至对于影片发行方来说,相比于真人配音还要省事无数倍。
对任何一个用户来说,你需要做的,仅仅是上传事先准备好的视频,选择想要转换的语言 —— 然后静静等待,就可以了!当然,最值得称赞的是,这款在国内外都掀起浪潮,让全世界网友玩得不亦乐乎的AI工具,研发团队还是来自国内的一家初创公司 —— 诗云科技。
诗云科技的这款工具名叫 HeyGen。新注册的用户可以免费体验工具的主要功能,按照指示上传准备好的视频然后等待即可。不过目前对于视频的格式还有一定的限制:
支持3种视频格式,分别是mp4/webm/mov;文件大小支持最高1GB,时长不超过5分钟,如果使用google drive的话,最高支持5GB的文件;视频分辨率支持最低360p到最高4K画质。
视频上传完毕后即可选择你想要输出的语言,目前支持输出包括中英文在内的15中语言。如此“傻瓜”的操作,也难怪各路网友都能玩得不亦乐乎。
不过白嫖的快乐只能在新手保护期享受两分钟,而且还需要排队等待(据说有博主测试等了一整天)。如果想要体验会员的快乐,那么至少也要每月氪金48美刀。鉴于如此昂贵的价格甚至淘宝上都迅速上架了各种白嫖/共享账号。
当然,如此逼真的效果也不免引起网友们的好奇,令人大跌眼镜的是,HeyGen 基本是在一系列开源方案的基础上整合而来的。根据网上一些博主的分析,HeyGen文本翻译用的是ChatGPT;语音转文字用的是Whisper;声线克隆音频生成用的是so-vits-svc;而最后口型匹配则用的是GeneFace++。
那么这是否意味着,其实这款AI工具并不具有太高的含金量或者技术难度呢?也不尽然。
事实上,制作这样一段视频运用的不是某项单一AI技术,而是要结合语音合成、情感识别、创建3D数字人等多种技术。
比如语音合成,这虽然不是什么非常新鲜的技术,但如何让生成的语音自然连贯且富有感情才是真正的难点。网络上刷屏的视频显然能证明 HeyGen 搞定了这一难题。
又比如3D数字人建模,以霉霉的视频为例,难点除了面部的3D建模,还有口型和微表情的动作捕捉。此外还有情感识别:这个才是真正厉害的地方,要让语音和人物口型表情相匹配需要非常复杂精确的算法,才能模拟真人的行为习惯而不让观众觉得违和。
HeyGen 崭露头角的背后,是一家来自深圳初创公司 ——诗云科技Surreal。从其官网上的介绍来看,其产品方案除了视频翻译生成以外,还包括了数字头像生成、AI脚本生成等等。
诗云科技的联合创始人兼CEO徐卓,本科毕业于同济大学,并在卡耐基梅隆拿到了CS专业的硕士学位。在自主创业之前,他还曾是社交网站Snapchat的 key engineering leader。而另一位联合创始人兼CPO梁望,同样也是本科毕业于同济,硕士毕业于CMU,曾经担任字节跳动北美 design lead。
目前公司不仅荣获了多项大奖,还已经获得了红杉资本领投的两轮百万美元融资。HeyGen也在7个月内实现了100万美元的年度经常性收入(ARR)。
同时根据网友的统计,HeyGen 从今年9月开始就迎来了一大波流量增长,数据表现在国内独立AI网站中位列榜首。
虽然不少评论分析,由于应用场景的限制以及相对较高的会员价格,HeyGen 注定会是一个相对小众的平台。但相比之下,对童鞋们来说,诗云科技创始人们从留学北美名校再到互联网大厂再到自主创业的经历才更有借鉴意义。
今日 CMU 计算机科研