#SounDoer Viewpoint# Cinematic VR 声音设计工作流程与制作方案

@SounDoer:从电影声音(Film Sound)和游戏音频(Game Audio)出发,讨论有关 Cinematic VR 声音设计的工作流程与制作方案。
 
注:Cinematic VR 可以理解为是 VR 化的影像内容,但直接翻译成“全景视频”或“VR电影”可能有些笼统和草率;鉴于目前还未有对 Cinematic VR 较为通俗的译名,故下文对 Cinematic VR 不作翻译,保留英文原文。
 
Cinematic VR 声音的表现特点
 
电影是线性媒体的典型代表。虽然 Cinematic VR 也是线性叙事,但与传统的线性媒体相比,它在声音表现上有着一个明显的区别。
对于电影来说,在影片某一确切的时刻,画面和声音和内容都是确定不变的。从空间角度来看,某一确切时刻画面展示出来的空间中,各个声源与镜头(也可以说是观众)之间的关系(相对位置和距离等因素)也是确定不变的。
对于 Cinematic VR 来说,观众能接收到的内容从原来的矩形平面扩展到了以观众为中心的整个球形平面上,而某一确切时刻的画面和声音内容仍然是是确定不变的。但有一点很大的不同是,观众能够自主地选择观看的方向(即视线方向),由此带来的声画体验变化是非常明显的。
通俗地来说,Cinematic VR 在声音表现上的特点就是,观众可以听到来自各个方向的声音,并且声音能实时地根据头部运动的变化而变化,就跟现实世界中人们感知声音一样,能够判断声音的方位、强弱和移动等特征和行为。
以 5.1、7.1 等为代表的基于扬声器/声道(Channel-Based)的多声道环绕立体声系统(Multichannel Surround System),一直以来都是影院重放的主流声音制式;随着声道数的不断增加,其效果也一直是朝着空间化和沉浸感的方向而不断改进。但由于观看电影时有固定的视线方向,观众前后的扬声器设置是有主次之分的,这对没有所谓的“正前方”的 Cinematic VR 来说就不太合适了。
虽然采用扬声器阵列也能实现上述提到的 Cinematic VR 声音特点,而且实际效果可能更为逼真,但是综合考虑性价比、使用场景、实现难易程度等因素,在绝大多数情况下,耳机将会是 Cinematic VR 声音的主要重放设备。本文接下来的技术讨论,也主要是围绕耳机重放来展开。
所以,Cinematic VR 在声音表现和重放设备上的两个特点,决定了其特别的技术实现手段。
 
从电影声音和游戏音频出发……
 
声音设计,可以说是随着电影的发展而产生的一门学科;目前,针对电影声音设计的软硬件设备、制作手段和工作流程都是非常成熟的。所以,Cinematic VR 声音设计在很大程度上会依赖和沿用现有的设备和手段,并在此基础上加入一些新的技术。
另一方面,作为交互媒体的典型代表,电子游戏(Video Games)的音频设计思路与电影声音设计相比,有着另一套不同的实现思路。而电子游戏交互特性所决定的制作手段,正好可以借鉴到 Cinematic VR 这个同样具有交互属性的媒体的声音制作中来。
接下来将先从电影声音设计、游戏音频设计开始分析,然后引入到 Cinematic VR 声音制作需要的技术以及整体的制作思路。
 
电影声音设计 Film Sound Design
电影声音设计从工作流程上来说可以大致分为同期录音、声音剪辑和混音三个步骤。
同期录音,即指录音师在影片拍摄现场同期拾取声音素材,主要是使用单声道话筒(吊杆枪式话筒、领夹式话筒等)来拾取演员的同期对白,以及一些重要的音效素材,另外还会使用各种立体声制式话筒来拾取富有特色的环境声等。总之,同期录音阶段的主要目的就是采用各种拾音设备和手段来尽可能分离地拾取拍摄现场的声音素材,如对白、音效和环境声等,以便后期声音剪辑时用作参考或灵活使用。
声音剪辑,即指在数字音频工作站(Digital Audio Workstation)中根据影片画面将同期录音、后期配音、拟音和其他各种途径和方式获得的声音素材剪辑到时间线上。一般会分为对白、环境、拟音、音效和音乐等几个部分,剪辑时也以单声道和双声道立体声为主,主要关注的是声音素材的内容,而声像位置的排布和变化等设置一般会在混音阶段再进行调整。
正如上文提到的,电影声音采用的是基于声道的多声道环绕声技术,这一点在混音阶段的体现就是,数字音频工作站软件中的声道设置是要与实际重放环境的扬声器配置相匹配的。以典型的 5.1 环绕立体声为例,L、C、R、Ls、Rs 五个扬声器均指向观众,且放置在一个以观众为中心的平面上;因此,观众是无法听到来自头部上方的声音的。对于电影来说,这一局限并不算是一个大问题,因为屏幕一定是在观众正前方,即扬声器、屏幕和观众之间的相对关系是确定的,混音师可以在制作阶段通过对各个声道信号的调整来呈现一个具有一定沉浸感的声场空间。
 
游戏音频设计 Game Audio Design
在声音素材的制作方面,游戏音频设计很大程度上继承了电影声音设计的工具和手段,通过拾音设备和软硬件合成器获取声音素材并在数字音频工作站中进行设计制作。而游戏音频最大的特点是在于,声音与游戏引擎的整合(Implementation)和对声音的实时控制(Real-Time Control)。
电影声音后期制作的整个过程几乎都是在数字音频工作站中完成的,而对于游戏音频设计而言,在数字音频工作站中完成声音素材制作并导出音频文件之后,接下来的工作就是把这些声音有机地整合到游戏引擎中去,让其能在需要的时候被正确地触发,即实现交互的功能。
目前,大型 3D 游戏项目,特别是主机游戏项目(Console Games),制作时的声音重放标准大多是 5.1 环绕立体声。在此重放标准基础上,游戏采用了另一种方式来对声音的声像位置进行控制。在游戏引擎构建的三维空间中,声音可以以声源(Emitter)的形式放置在三维空间中的各个地方,而每一个声源都具有一组 XYZ 的空间坐标信息。所以当声音被触发或者进行移动时,引擎能实时地计算出声源与玩家所在位置(通常称为 Camera 或 Listener)之间的距离、方位等相对关系,并由此对声音的声像、响度、频率响应、混响和遮蔽效应等各种参数做出实时的控制和调整。为了与电影中基于声道(Channel-Based)的方式相区分,我们可以把游戏中运用的这种方式称为是基于物体的(Object-Based)。
玩家在游戏中的观察方向其实就可以等价于 VR 中观众的视线方向,所以游戏中运用的声音定位和触发机制能很好地满足 Cinematic VR 的交互要求。但是与线性的 Cinematic VR 相比,游戏作为交互媒体有一点最大的区别是,由于无法决定玩家行为,游戏中的事件和场景都没有所谓的确定时长,各种声音都是以触发或循环等方式在游戏中播放的。所以,以这种方式来为 Cinematic VR 制作声音内容所面临的问题就是,需要生成一个能够包含声音方位信息且与影片时长相同的声音文件来和视频匹配合成。
值得一提的是,目前电影声音的制作中也加入了类似游戏声音声像控制的技术。比如,Dolby Atmos 电影声音系统,可以理解为是在传统 Channel-Based 的基础上,结合了 Object-Based 的控制方式。
 
由此可见,电影和游戏两大媒体的声音设计理念和技术也在不断地互相借鉴和融合发展。
另外,从上述两部分的讨论中也可以发现,目前电影和游戏的声音设计技术手段和工作流程在运用到 Cinematic VR 声音制作时,都还存在着一些需要改进的地方。
 
Cinematic VR 声音设计的技术要求
 
首先,我们需要明确 Cinematic VR 声音在技术实现方面的要求:
1)需要一种能够包含声源方位信息的音频文件格式;
2)需要让观众在佩戴普通耳机的情况下就能听到效果。
 
因此,在目前电影和游戏声音制作中不太常见的两种技术将会被用来解决上述两项需求,Ambisonics 和 Head-Related Transfer Functions。
 
Ambisonics
Ambisonics 可以理解为是一种球形的环绕声技术,它能记录以听者/话筒为中心的整个球形空间的声场信息。与 5.1、7.1 等多声道环绕声系统不同的是,Ambisonics 格式中的音轨并不是对应到实际的扬声器通道,而是包含了一个与声音重放制式相独立的声场空间;而且 Ambisonics 可以通过计算转换,以 Stereo、5.1、7.1,甚至是更多数量的扬声器阵列来输出回放。
正是基于这样的特点,Ambisonics 在 Cinematic VR 声音制作中就有了自身的优势:一是能够满足包含来自各个方向声音信息的要求,二是能够以一种音频文件的格式 Ambisonics B-Format 来保存这些信息,三是能够被进一步地计算处理并以多种重放制式来输出。
 
Head-Related Transfer Functions
HRTF,Head Related Transfer Functions,即“头部相关传输/传递/转换函数”。声音从声源处传来到被人耳接收,其间会受到躯干、头部和耳廓等人体自身因素的影响,来自各个方向的声音受到的影响也都各不相同,而我们正是基于这些细微的差别来分辨声源的方位的。为了能够重现这种效果,可以通过人工头录音(Binaural Recording)的方式来测算并量化地记录下这些影响,因此 HRTF 可以简单地理解为是一组有关“原始声音与人耳实际接收到的声音之间的差异”的数据/算法。在实际运用中,HRTF 就相当于是一个滤波器,对来自某个方向的声音进行频段上的处理,来模拟声音从该方向传来的效果,而且只需要使用普通的双声道耳机就能听到这种效果,即将普通的双声道立体声信号变成了 Binaural Stereo 声音信号来输出。所以在 Cinematic VR 声音制作中,利用 HRTF 技术就能在以耳机为主要输出设备的前提下实现逼真的听觉效果。
 
Cinematic VR 声音的实现思路
 
soundoer_cinematicvr_workflow_1
 
上图是 Cinematic VR 声音实现思路的流程框图(文末附有中文版)。大致可以分为三个部分来分析,分别是:
Production 制作,主要是关于制作 Ambisonics 音频文件的方法和工具。这也是本文从声音设计师的角度出发,将要讨论的重点部分,下文会有详述。
Real Time Processing 实时处理,主要是根据从头显设备中获取的方位数据来对 Ambisonics 文件进行处理并加载使用 HRTF。这些处理过程都是在使用头显设备时通过硬件和内部算法来实时完成的。
Playback Output 回放输出,即声音重放的方式。除了佩戴耳机听 Binaural Stereo 信号之外,还可以对 Ambisonics 文件进行解码转换,并以多声道扬声器的方式来输出。
 
制作 Ambisonics 音频文件
 
基于目前已有的工具,大致有以下三种途径:使用 Ambisonics 话筒直接拾取,使用数字音频工作站(Digital Audio Workstation)制作,使用游戏引擎(Game Engine)和音频中间件(Audio Middleware)制作。
 
使用 Ambisonics 话筒直接拾取
与传统电影不同的是,Cinematic VR 拍摄需要使用特制的摄像机阵列或全景摄像机来采集以摄像机为中心的、各个方向的影像,并通过后期拼接来合成 360 度的影片。针对这样的拍摄方式,最直接的声音录制方法是,将 Ambisonics 话筒与摄像机放置在同一位置,利用 Ambisonics 的特性直接记录下以摄像机/话筒为中心的所涉空间的声场信息。
这种拾音方式的优点在于,录制得到的音频文件可以直接与视频文件在时间线和空间位置上相匹配,一步到位,简单快捷。而缺点是,录制得到的是单一的音频文件,无法再对其中各个声音元素做进一步的处理。该拾音方式对拍摄现场的声音环境有较高的要求,更适合于以 VR 方式展示的新闻纪录和直播等无需对声音做艺术加工处理的场合。
当然,这并不是说 Ambisonics 话筒拾音在 Cinematic VR 声音制作中就毫无用武之地了。作为一种拾音方式,使用 Ambisonics 话筒拾取获得的声音,可以作为音效素材更直接地运用到 Cinematic VR 的声音制作中去。
下图是三款典型的 Ambisonics 话筒,CoreSound TetraMic、TSL SoundField SPS200 和可录制高阶 Ambisonics 的 Eigenmike Microphone。入门级别的设备可以选择 Zoom H2n 便携式录音机,固件升级后加入了录制一阶 Ambisonics 的功能。
 
u_ambimics
 
使用数字音频工作站(Digital Audio Workstation)制作
对于 Cinematic VR 来说,对语音、音效和音乐等各个声音元素做单独的技术处理和艺术加工是必不可少的。因此,一种较为成熟的制作方式是,在数字音频工作站中对声音素材进行剪辑和混音,然后导出 Ambisonics 格式的音频文件。
与电影声音制作稍有不同的是,用于 Cinematic VR 声音制作的数字音频工作站必须支持至少 4 声道的多声道音轨(Multichannel),需要使用插件工具对声音进行空间定位(Spatialization/Panning),能够进行实时的立体声耳机回放监听(Binaural Playback),以及 VR 格式视频的同步播放。
 
u_reaper_1
u_reaper_2
 
以数字音频工作站 Reaper 和插件 FB360 Spatial Workstation 为例,其制作界面如上图所示。Reaper 支持创建最多64个声道的音轨,而且相较于其他支持多声道音轨的工作站软件来说,价格优势也非常明显。FB360 Spatial Workstation 是一套支持多种音频工作站、功能齐全的插件工具,其中包括了对每一轨声音进行空间定位的空间化插件(Spatialiser)、设定房间模型参数、控制双耳监听和同步视频的控制插件(Control)、VR 视频播放器,以及将生成的音频文件转换成适配各个平台的 Ambisonics 编码器等。利用上述这些工具,声音设计师可以像以往做传统线性媒体那样,在音频工作站软件中完成声音后期制作并导出音频文件。
关于 Reaper 和 FB360 Spatial Workstation 的具体操作就不在此赘述了,官方已经提供了丰富详细的文档和教程等资料。附上 Facebook 360 Spatial Workstation Tutorial 官方视频教程(请科学上网),或者戳 SounDoer 的转载链接
除此之外,还有其他一些不错的插件工具可以选用,比如 Ambisonic Toolkit、WigWare 和 ambiX Ambisonic Plug-in Suite 等,更多详情可参阅 The Introduction of Virtual Reality Audio for Films and Games – Part 4 一文。
 
使用游戏引擎(Game Engine)和音频中间件(Audio Middleware)制作
除了实景拍摄之外,现在越来越多的电影使用了 CG 技术来构建虚拟角色和场景。对于声音而言,同样可以借助游戏引擎等工具来搭建一个虚拟的三维空间来模拟 Cinematic VR 影片中的声场环境。
在游戏引擎中,具有空间坐标信息的声源可以被放置在三维空间的各个位置,引擎中的摄像机(Camera)就相当于实际拍摄时的摄像机。我们可以根据影片中的内容,在引擎中绘制相对应的声源、方位和运动轨迹等,以及镜头的行为。这样就相当于把 Cinematic VR 中与声音相关的信息和镜头与声源之间的相对关系,以一种更为可控的方式还原到了游戏引擎中。这样就可以借助游戏引擎并配合音频中间件的使用来生成得到 Ambisonics 音频文件,用于与视频文件合成。
当然,引入了游戏引擎之后,制作过程的复杂程度也相应提高了不少;其实对于一些简单的场景,特别是环境声的构建,仅使用音频中间件就能满足需求了。以音频中间件 Audiokinetic Wwise 为例,Wwise 在 2016.1 版本中更新了 Ambisonics Pipeline,支持最高至三阶的 Ambisonics 音频素材导入和播放、Binaural 监听和多种插件效果器等处理,以及可以利用内置的 Recorder 插件来录制出 Ambisonics 格式的音频文件。如下图所示,在 3D Positioning 设置中可以调整发声点和发声路径的 XYZ 坐标信息,这样就可以把声音按需放置在三维空间中的各个方位和移动路径上了。具体的操作指南可以参见 Audiokinetic 官方发布的文章 Using Ambisonics for Dynamic Ambiences
 
u_wwise
 
另外,对于主要依靠 CG 技术的动画片来说,采用基于游戏引擎和音频中间件的声音制作方式会更为便捷和可控。以 Oculus Story Studio 出品的 VR 动画短片《Henry》为例,影片的声音制作除了使用 ProTools、Reaper 等数字音频工作站之外,还用到了音频中间件 Wwise 来与引擎 Unreal 配合,短片最终的渲染也是在引擎 Unreal 中完成的。
 
通过上述几种方式,可以得到以 Ambisonics 方式编码的多声道 WAV 文件,然后再将其与 VR 视频文件合并输出后即可。需要注意的是,由于目前尚未有统一的格式标准,各个设备和平台对音视频文件的技术参数都有不同的要求。比如,目前有两种主要的Ambisonics B-Format 格式 FuMa 和 ambiX;YouTube 平台已经支持 360 度全景视频和 Spatial Audio,并公布了具体的音视频参数要求
 
从 Ambisonics 到 Binaural 的实时处理
 
soundoer_cinematicvr_workflow_3
 
对于声音设计师来说,并不一定要理解从 Ambisonics 到 Binaural 的实现机制和算法;这些处理过程都是在使用头显设备时通过硬件和内部算法来实时完成的。配合上图简单地理解就是,Ambisonics 音频文件中的声音信息以 Virtual Speakers 的形式围绕在以用户为中心的球形空间中,并根据来自头显设备的 Orientation 数据来实时变化;各个方向上 Virtual Speakers 的声音会被加载相应的 HRTF 处理,然后再合并汇总以 Binaural Stereo 声音信号来输出。(只能说这么些东西了,因为其实我也不太明白……)
 
用耳机听
 
对于用户来说,根本不用关心前面讨论的内容,只要戴一副普通的耳机就可以听到效果了。有一点建议可以说一下,Binaural 音频的听感效果对声音的音质有一定要求,所以最好是佩戴频率响应和隔音性能较好的封闭式耳机,而不是小型的入耳式耳塞。
 
-End-
 
附上中文版流程框图:
cvr_sound_workflow_zh
 
-希辰
2016.11.14
 
 
SounDoer – Focus On Sound Design
转载烦请告知并注明出处