当前位置:首页 > 新闻资讯 > 科技生活 > 新闻
AI分身进化之旅:老师是下一个应用方向
  • 2019/3/29 10:37:10
  • 类型:原创
  • 来源:电脑报
  • 报纸编辑:电脑报
  • 作者:
【电脑报在线】2018年11月,乌镇世界互联网大会上,以新华社CNC主持人邱浩为原型的AI合成主播首次亮相,引发公众极为热烈讨论。到了今年2月19日,全球首个AI合成女主播“新小萌”推出时,不仅能坐着播报新闻,还能站起来,带着手势、姿态等多种肢体动作,让主播的表达方式更加多元化。


AI分身技术的落地应用,远比人们想象中发展的要更快。

2018年11月,乌镇世界互联网大会上,以新华社CNC主持人邱浩为原型的AI合成主播首次亮相,引发公众极为热烈讨论。

到了今年2月19日,全球首个AI合成女主播“新小萌”推出不仅能坐着播报新闻,还能站起来,带着手势、姿态等多种肢体动作,让主播的表达方式更加多元化。

接下来,在线教育AI公开课老师、客服、教育以及一些娱乐等等方向将是AI分身技术的下一步落地应用方向。

24小时工作,且不担心出错


截止目前,入职新华社的AI合成主播,已生产几千条新闻报道。参与包括第五届世界互联网大会、首届进博会、2019春运、春节、两会等若干重要事件的报道。

在不少媒体看来,一个国家级主流媒体大量运用AI合成主播,这项举动本身具有强烈的象征性意义包括“今日俄罗斯”电视台网站、英国Daily Mail、美国Futurism等多家海外媒体对此进行了大幅报道,并称“近年来,中国已成为全球领先的人工智能发展中心之一”

其实,相比乌镇互联网的第一次亮相,AI合成主播技术已经快速升级——读起新闻声情并茂新小萌进一步采用了“搜狗分身”最新的wavernn波形建模技术,可以实现逼真的语音合成效果,让AI声音更具有真实情感和表现力。

“我们提供的系统,新华社只要每天在想要播报的新闻,过几秒钟生成一个完整的视频,中文、英文不同类型的新闻视频就可以马上出来。”作为新华社AI主播背后的技术负责人,搜狗语音交互技术中心高级总监陈伟,对此感慨颇多

陈伟透露,通常而言,AI分身技术需要几步,第一步通过使用人脸关键点检测、人脸特征提取、人脸重构、唇语识别、情感迁移等多项前沿技术,第二步是结合语音、图像等多模态信息进行联合建模训练后,最后生成与真人无异的AI分身模型。

搜狗分身技术的魅力在于,让机器能够逼真地模拟人类说话时的声音、嘴唇动作和表情,并且将三者自然匹配,与真人几乎一致。

陈伟看来,使用AI主播最大的意义在于解决了新闻播报领域的效率问题,在建模完成后,编辑人员仅需要输入文字资料,即可让AI形象按照文字播报。无需进行二次视频编辑,AI主播将自动识别语义并配上对应音调及表情。“播报一个新闻一般会有场地、时间、主播本身精力的限制,每天的产出很有限,资源本身又是受限。但AI主播不同,可以工作24h,也不必担心有错误出现。”

语言为核心展开布局

看似用户只用输入文本即可创造AI分身背后,背后难点攻破并不轻松比如逼真度。

“逼真度”是团队衡量AI分身技术的一个重要指标——根据陈伟的说法,所谓逼真度,就是大家看到的表情、唇语、动作声音最基本的需求是保证表情、声音和真人完全同步。

早期是通过人工来评价的,逼真与否也是内部产品、算法的同事扫一眼,比较主观。现在搜狗在做一些指标, 通过大量的假设录制视频切一小部分做一个测试集,与真人的相关视频做对比。压缩在一个相同的时间维度下面来看,逐帧对比,整个表情、嘴型、姿态上面的差异度有多大。陈伟表示。

“实际上我们每前进一步都很难,比如让AI主播动起来摆头,这一动作都比单纯的正面播报要困难得多。要想做到电影里展示那样与真人无异,至少还需要5-10年。”陈伟表示,AI主播来说,其功能还停留在播报阶段,更多交互功能有待于进一步开发。

陈伟也透露,未来,团队将会更关注眼神、挑眉等微表情的自然表达。在图像上面要考虑2D+3D混合的技术,在语音基础上面有更多NLP的能力进来,让AI分身的认知能力加强。

事实上,AI分身背后,伴随的是搜狗AI多年的研究发展脚步——根据记者了解,早在2012年搜狗围绕感知层面的交互,开始了语音识别相关研究。

过去几年来,人工智能就此成为搜狗产品的赋能原力,搜狗以“语言”为核心展开布局,纵向向技术天花板不断突破,提升机器翻译技术的准确率和智能服务的深度。与此同时,加大横向的产业布局,拓展更为广阔的应用场景,在搜索、社交、旅游、医疗、法律翻译等领域,推动人工智能的产业化落地。

 2016年世界互联网大会上,搜狗展示了同声传译,那时候搜狗还没有上市,但专注于完善语言处理技能已经成为其未来战略之一。2017年世界互联网大会上,搜狗掌门人王小川对外界表态:“现在很多人认为,语音搜索已经足够方便了,但这还不够智能。”

1年后的2018年7月,王小川在香港公布了“搜狗分身”技术——在现场,王小川展示了一段结合唇语合成、语音合成、音视频联合建模与深度学习技术,可驱动机器生成对应的唇语图像与声音,进而输出统一的音视频素材

彼时业界很少有人会预料到,如此高逼真的AI合成主播,会如此快与大众见面,甚至影响冲击了整个新闻媒体的生产方式。

AI语音应用场景考量




客观而言,目前AI分身的真实度并未达到令人恐慌的阶段。此外,新华社的AI主播目前主要在单个频道运营,如果想要普及到更大规模的媒体频道,高并发要求将对云端调度提出一定挑战。

陈伟表示,目前搜狗提出两套方案,一套提供公有云服务;另外也支持部署在企业本地的私有云服务器上。“我们的服务在资源占用和实时性上都能满足要求。”

不过,新小萌AI合成主播的出现,绝非只是播报新闻稿而已。这位美女虚拟主播背后被寄予厚望,搜狗希望在未来将AI语音合成这项技术个性化,为AI语音赋予各种形象和场景。

在陈伟的预想中,在“分身”技术的支持下,视频制作成本将会大大降低,最终惠及用户。首要的就是与搜狗现有产品线打通。像在输入法搜索,包括搜狗AI硬件上面“分身”技术将如何落地,都正在探讨中。

比如在AI老师上,已经有项目正在进行中。“像公开课这种老师单向输出的形态,特别适合做AI分身。老师只需要准备教案和文稿,通过这种方式形成各种教学视频,后期加上一些剪辑也可以带有一定的交互能力。这种比单纯的文字教学效果要好得多。”

此外,法律,医疗,娱乐等领域也是搜狗AI分身未来发力的方向。而在技术使用的规范问题上,陈伟如此表示“搜狗选择和明确的公司、在明确的领域合作,尽量通过场景圈定技术的使用范围,这样的好处就是不会把技术滥用。”

这一切,将建立在搜狗如何将人工智能发展战略,延伸到更广阔的应用场景考量上。

对此,王小川曾说:“在AI领域,搜狗在技术和应用层面均取得丰厚成果,奠定了在语音、计算机视觉、机器翻译和问答等多个赛道上的领先地位。展望2019,我们会将AI技术与业务深度融合,持续提升核心竞争力。”

尽管对于所有人工智能公司而言,在大环境变化如此快的当下,想把AI的故事讲得更好,这都并不容易。

王小川对此已有了自己的判断——那就是以搜狗擅长的语言为核心。今年 2 月,在发布完 2018 年 Q4 财报后,王小川在公司的内部信中写道:日后将强化以语言为核心的 AI 技术的积累和探索,保持搜狗技术领先性的核心优势。

这一点上,王小川的看法从未变过在他看来,“语言”是AI的未来,“掌握一种语言就是掌握了一种灵魂”,而语言则是人工智能皇冠上的明珠。无论是百箱大战中Amazon Echo、Google Home等多款围绕着语音交互打造的智能音箱,还是会打电话的Google Duplex、会辩论的IBM Projector Debater,都聚焦于让机器拥有“语言”这颗明珠。

因此,谁敢妄下断言,AI分身合成主播,将在教育、法律、娱乐等更多领域,会带来多大的冲击浪花?

本文出自2019-03-25出版的《电脑报》2019年第11期 A.新闻周刊
(网站编辑:PCW-hjz)


我来说两句(0人参与讨论)
发表给力评论!看新闻,说两句。
匿名 ctrl+enter快捷提交
读者活动
48小时点击排行
论坛热帖