当前位置:首页 > 新闻资讯
首部纯AI拍摄电影上映,人工智能如何冲击电影工业?
  • 2024/3/28 10:18:00
  • 类型:原创
  • 来源:电脑报
  • 报纸编辑:电脑报
  • 作者:
【电脑报在线】“人工智能的世界,一个月等于一年。”重制版《终结者2:审判日》(下简称《终结者2》)的执行制片人内姆·佩雷斯(Nem Perez) 的感慨已经得到证明。

01


好莱坞“审判日”

“人工智能的世界,一个月等于一年。”重制版《终结者2:审判日》(下简称《终结者2》)的执行制片人内姆·佩雷斯(Nem Perez) 的感慨已经得到证明。当从去年10月开始制作的《终结者2》终于在今年3月6日正式上映,而在今年1月制作完成时,整个制片团队发现,曾经使用过的AIGC工具都已经升级了不知道多少回,甚至还出现了Sora这类颠覆性的创作工具。

《终结者2》原本是一部33年前的科幻电影,佩雷斯的团队的“重制”并不是我们常见的翻拍经典,而是利用文生图软件Midjourney,文生视频软件Runway、Pika,AI语音生成软件Eleven Labs,AI影像设计处理软件ComfyUi、Adobe等多个AIGC工具进行创作。尽管还只是一次“实验性质的非盈利尝试”,但这种尝试几乎把传统电影制作的流程彻底颠覆——无论是编剧、导演、场记还是美术指导、拍摄、剪辑,统统被AIGC所替代。

当然这部重制影片的口碑远远不及曾开创初代机械美学的《终结者》系列。这部电影是由50位艺术家在不使用原电影中的任何镜头、对话或音乐的前提下,用AI创造出了50个片段,再剪辑拼接而成。因此,有好莱坞影评人认为,这部重制电影根本不算是剧情连贯的剧情片,只是一种模仿或“艺术诠释”。 

但重要的是,这部《终结者2》让市场看到了在AI参与的背景下,电影创作过程能变得多么高效。而这还是Sora出现前的场景。

02


配音都省了,什么原理?

龙年春节期间,Sora横空出世,以相较Pika、Runway跃进级的效果震撼世界。除了极其逼真的视频效果外,在硬性约束上的突破也让人惊叹Open AI的统治力。比如在视频时长方面,Pika只支持3秒视频,Runway也只支持4秒,而Sora直接把时长拉至60秒,甚至包括不同角度、景深的运镜。

经过这样的冲击,冷静之后的Pika也终于献出了反击。近日,Pika在社交平台X宣布,将上线唇部动作同步功能“Lip Sync”。它可以帮视频中的人物匹配和声音一致的口型,配合Eleven Labs的音频生成技术,让人物在说话时表现得更自然;没过几天,又公布了可以为视频无缝生成音效的功能“Sound Effects”。

公开的视频显示,Pika生成引擎发动、欢呼声、小号、煎肉声等等音效的方式有两种,一种是给一句提示(Prompt),描述你想要的声音,或者直接让Pika根据视频内容自动生成。

上述这两个功能表面上只是把我们比较熟悉的AI配音,与AI生成视频相结合,好像难度不大?毕竟对于人类来说,视觉和听觉事件往往同时发生:看到音乐家拨动琴弦自然会流出旋律,酒杯摔碎耳朵会听到破裂声,摩托车加速一定会发出轰鸣声……但是要让机器理解相同起因的视觉和听觉刺激会同时发生,就要在机器视觉-音频联合学习(Audio-Visual Learning)上下功夫。   

拆解来看,首先要训练基于深度学习、采用了先进的神经网络技术的语音合成模型,其核心思想是通过训练大量数据,自动学习生成语音信号的规律。这种技术能够处理复杂的语言环境和多样性的发音,并且能够生成更为自然、流畅的语音。

然后就是要让AI学习怎么准确地把图片或视频识别到相应的音频上。麻省理工大学甘闯团队的3D视觉和语言基础模型“Foley Music”可以作为一个例子,该模型就是将视频作为输入,检测视频中的人体动作,识别其与乐器之间的交互作用,再预测相应的MIDI文件即音频文件。

但到了复杂的视频中,模型要识别每个物体的类别、材料、空间位置,还要判断物体间的高阶互动,比如金属和木棍间以不同速度击打;还要识别整个环境是在雪山还是餐厅等等问题。

这都要求多模态模型通过学习得到的物理规则,来组合和调整声音模式的参数,甚至即时创造全新的声音。

来源:壹零社

本文出自2024-03-25出版的《电脑报》2024年第12期 A.新闻周刊
(网站编辑:jiajia)