元宇宙

今日-商汤科技李星冶:元宇宙的AI引擎如何构建新应用

作者:CETCIT小编

2022-12-05 21:19:02

元宇宙的火热引发了各个行业的关注与探讨,在WISE 2022 企服展评节暨数字增长大会上,来自商汤科技高级商务总监李星冶介绍了AI 技术与元宇宙结合带来的应用与实践。

李星冶认为,AI有着它自己的产业革命,在元宇宙领域,在遵循摩尔定律通行原则的基础上,会开启了媒介的变革,通过技术驱动升级。随着更新型的人机互动技术的来临,人们也会有更加深度的元宇宙互动沉浸式体验。

在整个元宇宙的分层当中,商汤科技专注于AI引擎层,即专注于人物的生成引擎和专注于场景生成的数据重建平台。

李星冶表示,基于强大的AI能力,商汤科技打造了数字人的生成平台,并在金融、商超、等线下的场景使用。同时,结合了商汤原创的AI技术,在数字资产方面通过线上线下实体产品产生结合和互动,打造出更新的衍生效果和生动的游玩体验。

以下为李星冶演讲全文:

这次活动的主题非常有意义,商汤科技本身是一家做人工智能的相关企业,我们时刻关注着在数字化经济的转型和升级之下有哪些行业和业态能跟AI产生深度的结合和绑定,今天我带来的主题在商汤内部也是全新赛道的尝试,是关于元宇宙相关赛道发展和建设的意见。

从AI的发展阶段来看会分成几个阶段,在有一些特定的行业,AI可以让人们从一些繁重、危险的工作中解放出来,我们也期待着AI能在将来某个时间段内超越专家,产生出更好地现实生活中的替代效应。

AI从产业落地的角度分成四个大方向:首先是算法,其核心是算法模型被行业更多的使用。其次是有大量的数据。目前看,通过大量的数据学习和训练,AI在很多领域能产生越来越多的效果。再次是算力,为了大规模的去生产训练模型,要匹配到我们能够去进行多任务、大规模的训练,提升有效算力,算力的集群对于整个算法训练来讲是事半功倍的事情。同时要找到有效的落地场景,这应该是业内的共识。

从国家的发展角度去看的话,我们在一个大的战略布局发展当中,对于数据的使用和效率的提升提出了很多迫切的要求。

我们认为AI随着它自己的产业革命,在元宇宙相关的领域,它从大的方向上遵循摩尔定律通行的原则,它开启了媒介的变革,通过技术驱动升级。

PC互联网时代更多的是以媒体为中心进行新闻的发布和传播,到了后来的移动互联网时代,随着3G、4G的网络有了创新型的应用,比如说移动支付、共享单车;5G建设时代初步来临的时候,随着智算中心、边缘计算等普及,进入了新的所谓的元宇宙时代,这是我们今天畅想的主要方向。也有一些权威报告指出元宇宙的入口,比如说预计在2025年,整个低成本优质的硬件市场覆盖会达到7500万或7600万件,有了大量的元宇宙入口,才有了元宇宙进一步的想象空间。

随着更新型的人机互动技术的来临,我们会有更加深度的元宇宙互动沉浸式的体验,我们今天是站在元宇宙的入口跟大家进行早期的讨论。

在整个元宇宙的分层当中,最底层是基础设施;向上是显示硬件,比如说传统的手机电脑、VR、AR、XR的设备;向上是操作层,基于移动端的IOS、安卓,还有基于PC端、服务器端的操作系统;再向上有3D引擎,最大的是应用层,现在可以看到早期元宇宙雏形应用,比如说用于社交运用、办公协作、商业服务娱乐等。

商汤专注于AI引擎层,这里面主要是两个部分,一个是专注于人物的生成引擎,一个是专注于场景生成的数据重建平台,这是今天分享的重点。

在大的元宇宙展示空间里,会把它分成人、物、场三个部分。人主要是基于快速算法的建模完成数字人的生成、驱动和智能化的交付。物指的是物体跟人相似的建模算法,同时会有数字文创等产品的应用。在空间的场景里有很多空间建模的算法,可以结合线下的赛事活动、展览展存去做一些深度的体验。


直播截图

数字人可以分成好多不同的数据类型,商汤自己打造的数字人生成平台也是依托于底层的能力,可以汇聚成各种各样的风格,满足不同行业的需要。在大的数字人生成平台当中,包含了底层简单的AI引擎,传统意义上大家理解成视觉引擎,比如说对人的肢体语言、表情、动作识别、;也包含了语音的能力和引擎,比如说ASR、TTS,就是语音转动作和反馈,从文字转成语音交互、再到STA驱动,就是语音驱动数字人动起来的能力;还包括语义引擎,如NLP技术,我们去理解人机互动,理解人类传输语言的意义,也包括对话引擎,他对上下文进行连接。

基于强大的AI能力,向上可以做很多上层应用,比如说生成平台,它可以包括数字人的生成平台,快速去生成一套数字人,除了人之外还可以对它进行换装,可以对灯光进行材质的渲染,同时还可以在运营管理的平台上,对数字人进行简单的管理和制作。在数字人的视频平台,我们可以让数字人生成播报、动作匹配、转场特效等。基于此,我们可以应用线上的APP、H5和小程序,用数字人替代人工完成一些播报和互动,同时可以在线上场景结合各种各样大屏小屏等智能设备,去完成在现实生活中对人群的触达。同时,在应用场景里会有很多具体的载体,比如说虚拟偶像、数字人主播等,有一些大家在生产生活当中可以看得见的应用。

数字人解决方案的组成模块包括生成部分、驱动部分、智能交互部分,更多行业内的伙伴或相关的厂商把更多的精力放到了生成上,把人物变得更精细漂亮,这是非常有意义的事情。但同时,我们觉得更重要的是怎么样让数字人有效的驱动起来,以及最难的是智能化的交互,这些可以让数字人真正的拥有智能。

现在对于制作数字人来讲,通过AI的能力已经把它的门槛降得越来越低,围绕着真人进行简单的环拍,环拍之后可以生成出真人模型,其实是比较栩栩如生的,创建完之后可以对脸部和服装进行简单的调整,除了做人物也可以做动物、卡通画等。

同时,我们可以通过语音和其他的方式完成对数字人的驱动,比如我跟大家说你好,只要录入文字,我们的数字人就会打一个你好,这个时候我们就并不需要真人在后面扮演,可以最大程度的释放生产力,让数字人变得更加高效智能。

这是首创的一套空气动捕,传统的驱动数字人还得有一套动捕的设备,这套设备比较繁重,同时提高了制作成本和使用难度。这个时候商汤主要使用的是基于RGB摄像头完成对于数字人的驱动,看起来会变得非常简单,降低了使用的门槛,在线上直播的应用里已经慢慢看得见了。

这里面主要讲了商汤自己数字人的典型应用,在金融、商超、活动里会有很多线下的场景去使用,未来我们和合作伙伴、友商会把越来越多的数字人推在更多生产、生活的角落,今天参会的朋友应该都有过接触。

这是数字猫比较新的产品和玩法,除了对于人的打造,我们自己对于数字资产和物品有很多的想法,结合了商汤自己原创的AI技术,和线上线下实体产品产生结合和互动,就能产生出更新的衍生效果和很生动的游玩体验。

基于数字猫这个APP可以看出,这里面展示了两个,一个是《鹿王本生图》的九色鹿故事,在现实场景当中扫描实物之后出现小猫头的形状,拿着手机走进去之后进入敦煌的壁窟,现在敦煌的壁窟经历千年已经斑驳了,用商汤这套AR算法可以看到九色鹿的场景被很好的展现了,栩栩如生的讲述了鹿王之前的故事。它是基于物体的识别完成了沉浸式、交互式的数字藏品。


直播截图

这里展示的是徐悲鸿的《奔马图》,这匹马就是一幅水墨画,扫码进入之后,可以围绕着这匹马360度旋转,可以栩栩如生的看到这匹马。

这是《溪山行旅图》,宋画三绝里面很有代表性的一幅画,扫完进来之后可以看到这幅画卷生动地展现在了我们面前,它有声音,沉浸式的体验到人、物体和场景有机融合。

这是我们跟水立方、冬奥会线下沉浸式的互动,可以更多的在商场、景区基于现实场景完成AR导航或简单的小游戏互动。

我们仍然是要强调“科技向善”,对于AI可持续发展上,商汤一直立足于此方面的建设和工作,我们觉得作为一家AI企业,有责任把这件事情承担好。

商汤本身是一家赋能的企业,迎合今天36氪的主题,作为乙方企业,希望跟更多的合作伙伴探讨,大家共同在新的数字经济环境之下探讨怎么样有效的完成新一轮的增长,不管是在传统的场景里还是在新型的元宇宙空间里,期待跟大家更多的交流学习,感兴趣可以扫描屏幕当中的二维码期待更多的讨论。

原创图片

本文来自微信公众号“36氪企服点评”(ID:qifudianping-36kr),作者:36氪企服点评官方,36氪经授权发布。

web3.0教程