首部纯AI拍摄电影上映，人工智能如何冲击电影工业？

正文

2024/3/28 10:18:00
类型：原创
来源：电脑报
报纸编辑：电脑报
作者：

【电脑报在线】“人工智能的世界，一个月等于一年。”重制版《终结者2：审判日》（下简称《终结者2》）的执行制片人内姆·佩雷斯(Nem Perez) 的感慨已经得到证明。

好莱坞“审判日”

“人工智能的世界，一个月等于一年。”重制版《终结者2：审判日》（下简称《终结者2》）的执行制片人内姆·佩雷斯(Nem Perez) 的感慨已经得到证明。当从去年10月开始制作的《终结者2》终于在今年3月6日正式上映，而在今年1月制作完成时，整个制片团队发现，曾经使用过的AIGC工具都已经升级了不知道多少回，甚至还出现了Sora这类颠覆性的创作工具。

《终结者2》原本是一部33年前的科幻电影，佩雷斯的团队的“重制”并不是我们常见的翻拍经典，而是利用文生图软件Midjourney，文生视频软件Runway、Pika，AI语音生成软件Eleven Labs，AI影像设计处理软件ComfyUi、Adobe等多个AIGC工具进行创作。尽管还只是一次“实验性质的非盈利尝试”，但这种尝试几乎把传统电影制作的流程彻底颠覆——无论是编剧、导演、场记还是美术指导、拍摄、剪辑，统统被AIGC所替代。

当然这部重制影片的口碑远远不及曾开创初代机械美学的《终结者》系列。这部电影是由50位艺术家在不使用原电影中的任何镜头、对话或音乐的前提下，用AI创造出了50个片段，再剪辑拼接而成。因此，有好莱坞影评人认为，这部重制电影根本不算是剧情连贯的剧情片，只是一种模仿或“艺术诠释”。

但重要的是，这部《终结者2》让市场看到了在AI参与的背景下，电影创作过程能变得多么高效。而这还是Sora出现前的场景。

配音都省了，什么原理？

龙年春节期间，Sora横空出世，以相较Pika、Runway跃进级的效果震撼世界。除了极其逼真的视频效果外，在硬性约束上的突破也让人惊叹Open AI的统治力。比如在视频时长方面，Pika只支持3秒视频，Runway也只支持4秒，而Sora直接把时长拉至60秒，甚至包括不同角度、景深的运镜。

经过这样的冲击，冷静之后的Pika也终于献出了反击。近日，Pika在社交平台X宣布，将上线唇部动作同步功能“Lip Sync”。它可以帮视频中的人物匹配和声音一致的口型，配合Eleven Labs的音频生成技术，让人物在说话时表现得更自然；没过几天，又公布了可以为视频无缝生成音效的功能“Sound Effects”。

公开的视频显示，Pika生成引擎发动、欢呼声、小号、煎肉声等等音效的方式有两种，一种是给一句提示（Prompt），描述你想要的声音，或者直接让Pika根据视频内容自动生成。

上述这两个功能表面上只是把我们比较熟悉的AI配音，与AI生成视频相结合，好像难度不大？毕竟对于人类来说，视觉和听觉事件往往同时发生：看到音乐家拨动琴弦自然会流出旋律，酒杯摔碎耳朵会听到破裂声，摩托车加速一定会发出轰鸣声……但是要让机器理解相同起因的视觉和听觉刺激会同时发生，就要在机器视觉-音频联合学习（Audio-Visual Learning）上下功夫。

拆解来看，首先要训练基于深度学习、采用了先进的神经网络技术的语音合成模型，其核心思想是通过训练大量数据，自动学习生成语音信号的规律。这种技术能够处理复杂的语言环境和多样性的发音，并且能够生成更为自然、流畅的语音。

然后就是要让AI学习怎么准确地把图片或视频识别到相应的音频上。麻省理工大学甘闯团队的3D视觉和语言基础模型“Foley Music”可以作为一个例子，该模型就是将视频作为输入，检测视频中的人体动作，识别其与乐器之间的交互作用，再预测相应的MIDI文件即音频文件。

但到了复杂的视频中，模型要识别每个物体的类别、材料、空间位置，还要判断物体间的高阶互动，比如金属和木棍间以不同速度击打；还要识别整个环境是在雪山还是餐厅等等问题。

这都要求多模态模型通过学习得到的物理规则，来组合和调整声音模式的参数，甚至即时创造全新的声音。

来源：壹零社

本文出自2024-03-25出版的《电脑报》2024年第12期 A.新闻周刊
(网站编辑：jiajia)