#SounDoer# Ben Minto 访谈:游戏音频未来发展

@SounDoer:来自 A Sound Effect 的文章,采访了 EA DICE 音频总监/声音设计师 Ben Minto,十多年来参与了 Battlefield 和 Star Wars Battlefront 等游戏系列作品,访谈主题是游戏音频行业的未来发展。
 
原文链接:
The Future Of Game Audio – with Ben Minto
Interview by Jennifer Walden
 
1_Ben-Minto
Senior Audio Director & Sound Designer Ben Minto
 
过去几年中,游戏音频方面有什么技术发展让你感到兴奋?
Ben Minto(BM):就以我们在 DICE 工作来说,近几年最大的技术进展是能够将声音最终以传统基于声道(Channel-based)的格式或者是以 Object 的形式(译注:结合下文,应该是指 Dolby Atmos 的相关技术)来输出,这对整个音频团队和最终产品都有很大的影响。
在声音内容设计、制作和整合方面,Frostbite 引擎目前并没有太多的改动。有一个明显的变化是:对目前立体声或 7.1 环绕声等水平方向排布的声道输出设置来说,我们会忽略大多数 Audio-Only 声源(译注:指没有与游戏中物件有关联的声音,通常是环境声中的 3D 随机声音)原本在真实世界中应该具有的高度信息,比如那些在游戏中没有视觉参考的声音。举个例子,树林中不可见的鸟的叫声,是在以听者为中心、同一水平面的一定范围内生成的,这样实际上就把原本的 3D 声景压缩到了一个 2D 平面上。而现在有了改进之后,高度信息这一细节对整体声音体验的提升是非常明显的。
全局 DSP 效果(比如低血量时的低通滤波效果)、混响回送、混音、Mastering 处理等其他方面,都有各自所面临的挑战。研发部门将会继续研究探索,在不久的未来展示更多成果。
Dolby Atmos 的 Object Audio 技术已经被用在了最近的两款游戏作品中,《Star Wars Battlefront》和《Battlefield 1》,PC 端使用 HDMI 方式输出即可。Criterion Games 的同事在《Star Wars Battlefront》的代码基础上,为 PlayStation 平台上的 VR 游戏《Star Wars Battlefront – Rogue One: X-Wing》做了进一步的开发。
作为 Windows Sonic 平台的一部分,Dolby Atmos 也已经登陆 Xbox One 和 Windows 10 了,Object Audio 技术格式将会有大规模的使用。
 
目前游戏音频面临的最大挑战是什么?你觉得将会如何解决?技术方面有何期待?
BM:一般来说在每一次迭代之后,核心资源的量级和复杂程度都有指数式的增长,比如载具、枪械和各种装置等。再加上 DLC(Downloadable Content)、服务模块和自定义等内容,这种增长是非常巨大的。
由此,游戏底层用于处理这些声音资源的音频模块的复杂程度也在不断增加。比如说,在十年前,一把武器的开火声音可能最多只有5种变化,甚至只用了一个 gunfire.wav 声音文件。而现在,一把武器的声音是由许多不同的层次组合而成的,每一个层次的声音还可以实时地根据游戏参数的变化来播放不同的内容,比如根据环境类型来播放不同的反射声,根据距离远近来播放不同的尾声。
如果为每一种核心资源都创建独一无二的模块和数据,那么随着资源类型的总量和复杂程度的增加,最终所需的声音数据量将会成倍地增长。这样的话,素材制作、数据管理和调试等工作将会消耗更多的时间成本及人力物力。
内容共用(Content Sharing)是第一步。以武器为例,我们可以把 Pistol Tails 这一声音用在所有的 Pistol 模型上,而对每一把枪的独特组件部分制作个别的声音素材。这种做法可以减少大量的数据需求,而且能保证所有 Pistol 的声音具有一致性。
为大型数据建立具有层级结构的声音模块,是减少维护工作量的可行办法。我们首先定义一个主武器模块,然后在此基础上再定义一个子武器,它继承了来自父级的内容,并且只存储与父级不同的内容。(译注:即派生 Derivation)比如一把 Walther PPK 只存储了它与父级 Pistol 模块的不同之处。
如此一来,每种武器将会有一套各自的数据,且并不是完全独有的,各个武器之间会有大量不同程度的共用行为和内容。这套系统的优势会在以下几种情况得以体现,当发现了某个 Bug,或者是需要添加新功能时,比如给所有武器加上消音器,再或者是给整个系统添加更多素材资源,比如 DLC。如果要给所有武器加上消音器,我们只需要在主武器组件上添加这个功能,其下所有的子武器都可以根据实际需要来继承该功能。与人工手动一个个添加的方式相比,这套系统的出错率要小得多,消耗的时间也很少。
上面提到的这些情况,就是这几年来我们在 DICE 所遇到的。我们已经与 Frostbite 引擎开发团队共同合作,成功地整合了这些处理规则和工作流程。目前针对特定的游戏项目,我们已经能很好地处理持续的数据增长和复杂度提升的情况,且不需要额外的成本付出。
所以,从 DICE 自身的角度来看,更多的挑战在于创造巨量内容的能力。归功于 HDR 混音,我们可以根据是否能被听到等情况,来事先决定声音是否需要被生成播放,这样就可以播放更多一些比较费资源的声音。对于一款64人多人游戏来说,某些时刻可能需要有数百个声音同时存在(每个角色的拟音声、武器、载具、语音和破坏爆炸等),然后实际上通常只有20个左右的 Sound Patches 会被触发。
随着 CPU 和内存性能的不断提升,这些 Patches 也在相应地扩大。就目前来看,它们还是可读取、可管理和便于工作的,但好像我们很快将达到人类可处理的极限复杂度了。虽然我们已经移植到了 Shared & Hierarchical-driven 系统上,但是在系统最底层仍然有着庞大且复杂的主控机制,一个由条件逻辑、事件、采样器、DSP、混音和输出线路等构架起来的庞然大物。现在我们的日常工作只触及到了它的子级层次,甚至只是孙子的孙子的孙子级别,然而总有一天会需要对最核心的部分做改动。
在 Frostbite 编辑器中,所有的 Patches 都是以图形化的方式来展现的,有点像模块化合成器的 Patch 和 Max/MSP。现在,一个 Sound Patch 所有的基础节点(Node)都是可见的,比如 ADSR、Sampler、Scale Clamp 和 Flanger 等;之后的计划是,将某些节点组合成一个预制件(Prefab),这样看起来就更加简洁,整体 Patches 的可读性也会提高。而且,这些预制件仍可以作为节点来使用,而且可以被整合进更大的预制件中。复杂性依然存在,但应该不会成为太大的阻碍,除非你真的想要或是需要深入研究下去。
 
拓展阅读:
GDC 2015: Martin Loxton – Smart Sound Design Using Modularity and Data Inheritance
 
你希望游戏声音在创意方面有何发展?
BM:我认为,现在的游戏在传递至受众端方式上的局限已经消失了,从某种“单一定价商品”模式转变到了多种多样的交付方式,比如盒装、下载、免费、浏览器、流媒体和多重定价等,这给予了广大游戏开发者更多元的平台和更多机会去展示。
现在,任何一种创意风格和方向都有机会以游戏这一媒体形式来表现,所以唯一的阻碍就是找到一个合适的 Title,能够匹配某种特定的风格和基调。如果你找不到,那么就去学一学 Unity,然后让你做的游戏符合你的声音风格。
每周都有新东西来刺激你的耳朵。最近 Kickstarter 平台上众筹成功的游戏《Narita Boy》就发布了一个非常有风格的预告片。希望这种调调能在最终的成品里得以体现。
声音创意方面有一些很棒的作品是得到了主流认可的,比如《Inside》,以及其他游戏像《Cuphead》之类的,在声音创意和独特性上有非常多的可能性。
我希望将来能听到什么?更多的 Variety、Uniqueness,更大胆、更前沿、更与众不同。
 
关于你们自己的游戏项目,有什么可以聊的吗?
BM:就目前我所在的项目来说,所有音频团队的成员都来自上一个项目,新增成员也是,这样的工作体验非常棒。我想这应该是我第一次在这样的团队里工作。团队内部已经建立起来的协作关系让工作开展起来非常顺畅。同时,我们还与两个工作室合作 EA Motive 和 Criterion。
That’s all exciting for me. As an individual you can achieve a certain result, but being part of a well-oiled and functioning team working towards a unified and consistent goal brings its own rewards, where it always feels like the whole is greater than the sum of the individual talents.(译注:鸡汤废话……)
 
你希望 VR 技术能给声音带来什么机会?
BM:VR 自身的特点就是,听者与声音之间的关系更加紧密了。玩家在视觉和听觉上都与现实世界隔绝开了。玩家并不是游戏中的一个 Avatar 或者 Playable Character,但所处的环境会让他们以为自己真的是在那里。因此,构建一个真实可信的声场环境就显得尤为重要。
好的 VR 体验需要好的声音效果。希望有了这一点共识之后,声音内容创作和声音工作者都能受到更多的重视。有过3A项目经验的人应该都知道,声音对整体游戏品质提升的重要性。
如果能把这种体验带给玩家,那这就意味着我们需要把许多事情做得更好。我们对简单的日常生活中能听到的声音是非常熟悉的,而这些声音在 VR 环境中重现时就需要非常细致的处理,比如一个人细微的 Foley 动作声,转动手臂或者在座位上挪动,常见物品的声音,抓起杯子或者拨动开关。如果能把这些原本在游戏里很容易处理的细节声音做对了,那最终的效果就会非常棒。声音在这方面有很多的提升机会。
 
除了 VR 和 AR,你觉得还有哪些发展趋势?
BM:目前我们仍需要在这一方面努力,那就是如何让声音在虚拟世界中“正确地”传播(Propagate)。对于这一问题,不同的团队有着各自的解决方案,纯粹的 DSP 实时计算、全部由内容来驱动的整合方式或者是许多其他混合式的解决方案。
在 DICE 我们会讨论一个关于 Awesome 与 Authentic 的话题。我们是否总是需要真实世界的行为模式?真实是否就意味着听起来正确?我们已经将声音中那些能够被编码的细节(Detail)、一致性(Consistency)和信息(Information)做了进一步的提升,而且它们都能轻松地被玩家解码并理解:那是什么声音?离我有多远?在哪里发声的?是否存在威胁?是否重要?又听到了!所以说,我们该如何把更多的空间信息编码到声音中去?我们是想要更“准确(Correct)”还是更容易被理解(Decodable)?(如果两者存在冲突的话)
在拥挤的城市中生活工作,我时常会被真实的物理规则所迷惑,比如直升机在头顶飞过或者救护车从远处驶来,各种来自建筑物的反射声让我的大脑很难判断声音到底是从哪里传来的。对于这些现象,我们是否需要在游戏中再现?还是改变真实规则使整个场景信息便于理解?
在 DICE 我们采用的是混合式的基于特定内容和实时计算 DSP 的解决方案,而且在每一次迭代时会加入更多的功能、应用深度和 Awesomeness(这指的是,首先声音听起来要像在真实世界里那样 Correct,同时也可以根据游戏中的实际需要对其改动到 Right)。
 
对游戏音频从业者来说,在工作机会、必备技能和专注平台等方面有什么变化吗?有什么建议?
BM:简单来说,我并没有看到太大的改变。我们对每一个个体都有很高的要求,需要接触到音频开发过程中的每一个环节。虽然每个人都有各自不同的长处,有些人更善于或是更喜欢从事某一类具体的工作,但我们不会把工作角色分为典型的 Creative 和 Technical。从更大局观考虑、灵活地适应各类工作,对在大团队中工作,还是小团队里,甚至是单独一个人来说,都是很有益处的。
我们现在遇到的应聘者的质量和经历都非常牛逼,即使是实习生也都有 FMOD、Wwise 和 Unity 等基础。有些人已经开发过一两个游戏了。他们知道每一种 DAW 和相关的插件工具。他们经常出去实地录音,还有自己的音效库。他们在社交媒体上也很显眼,博客、Twitter 之类的,在音频领域有过几年的工作经历,而且还干得很不错。几年前,我们通常会用这些标准来筛选应聘申请,而现在这些标准明显都要提高不少。像团队协作、自我驱动和学习动力等个人品质也是很看重的,而且很多时候会比经验和技能更有价值。
 
A big thanks to Ben Minto for his insights!
 
相关阅读:
 
• Behind the sound of Battlefield 1
• Behind the Star Wars Battlefront trailer sound design
• The Future of Game Audio – a Q&A with Matthew Smith
 
 
SounDoer – Focus On Sound Design
@SounDoer 编译,若有错误还望不吝指教。转载烦请告知并注明出处。