订阅

AI又开始抢新闻主播的饭碗了?

跟其他人工智能技术类似,“搜狗分身”技术也要经过不断的学习过程,只不过这次AI学习的对象是人类行为而不是海量数据。

最近,由搜狗和新华社合作开发的全球首个全仿真智能合成主持人“AI合成主播”在第五届世界互联网大会正式上岗。最近,由搜狗和新华社合作开发的全球首个全仿真智能合成主持人“AI合成主播”在第五届世界互联网大会正式上岗。

该主播的原型是新华社主持人邱浩,技术基础则是搜狗分身技术——这是一种基于人工智能的多模态合成技术,可利用少量真实音频数据,快速迁移生成虚拟的分身模型。使用时输入一段文本,即可生成与真人无异的同步视频。

AI播报员

搜狗CEO王小川在接受媒体群访时表示,搜狗分身技术涉及到声音合成、表情合成、唇形合成三个方面,其中最关键的是唇形合成。

相比声音合成和表情合成,唇形合成更加精细也更加复杂,需要考验人工智能对语言的学习能力。而要达到逼真的效果,则需要使用人脸关键点检测、人脸特征提取、人脸重构、唇语识别、情感迁移等技术还原出真人原型的样貌、声音甚至语气特征。结合语音、图像等多模态信息实行联合建模训练后,便能生成与真人无异的AI分身模型。

据搜狗公司智能语音事业部总经理王砚峰介绍,“搜狗分身”技术是搜狗人工智能的核心技术之一。跟其他人工智能技术类似,“搜狗分身”技术也要经过不断的学习过程,只不过这次AI学习的对象是人类行为而不是海量数据。而为了消除“AI合成主播”发音时的机械感,人工智能需要经过海量的声音训练,学习真人原型的发音方式和语气。

但王小川同时表示,在目前的技术水平下“AI合成主播”还不能完全代替真人主播,“AI技术分为感知技术和认知技术。感知声音、图像的能力,机器可以做到跟人一样好。但是在认知技术方向上,推理、知识、思考等以语言为核心的逻辑能力,机器的处理能力是有限的。”王小川说。

除了“AI合成主播”,搜狗分身技术还可应用于更多面向消费端的场景,比如有声书、在家庭中代替父母讲睡前故事,搜狗输入法的语音辅助功能等等。而由于每个用户不同的样貌、声音和思维特征,搜狗分身技术下一步要尝试个性化,以帮助用户完成回复消息等重复性劳动。“让机器能够成为你的分身和助理,是搜狗AI两个核心的方向。”王小川说。

本文版权归第一财经杂志所有
未经许可不得转载或翻译
未登录用户
全部评论0
到底啦