详解超逼真动作背后的技术—动作捕捉
电影《魔戒》里的咕噜姆、《泰迪熊》里的毛绒熊、《阿凡达》里的部落公主……电影里那些经典虚拟形象生动的表演总能深深打动观众,而它们被赋予生命的背后都源于一项重要的科技技术——动作捕捉。
动作捕捉(Motion capture),简称动捕(Mocap),是指记录并处理人或其他物体动作的技术。多个摄影机捕捉真实演员的动作后,将这些动作还原并渲染至相应的虚拟形象身上。这个过程的技术运用即动作捕捉,英文表述为Motion Capture。
动作捕捉技术涉及尺寸测量、物理空间里物体的定位及方位测定等方面可以由计算机直接理解处理的数据。在运动物体的关键部位设置跟踪器,由Motion capture系统捕捉跟踪器位置,再经过计算机处理后得到三维空间坐标的数据。当数据被计算机识别后,可以应用在动画制作,步态分析,生物力学,人机工程等领域。
动作捕捉技术的背景
动作捕捉的起源普遍被认为是费舍尔(Fleischer)在1915年发明的影像描摹(rotoscope)。这是一个在动画片制作中产生出的一种技术。艺术家通过精细的描绘播放给他们的真人录影片段当中的每一帧静态画面来模拟出动画人物在虚拟世界中的具备真实感的表演。
这个过程本身是枯燥乏味的。但是对于这些动画师来说,幸运且具有纪念意义的是,1983年麻省理工学院(MIT)研发出了一套图形牵线木偶。
这套系统使用了早期的光学动作捕捉系统,叫做“Op-Eye”,它依赖于一系列的发光二极管,通过制定动 作,来生成动画脚本(Sturman,1999)。本质上,这个牵线木偶充当了第一套“动作捕捉服装”。它自带非常有限数量的感应球,这些球能粗略的定位人体结构的关键骨骼点的位置。
这套技术的产生,迅速的奠定了动作捕捉在之后迅速发展的基础,为后续各种动作捕捉提供了追寻的方向,也引领了之后动作捕捉技术的风潮,包括今天的动作捕捉技术在内。
动作捕捉技术基本原理
动作捕捉系统是指用来实现动作捕捉的专业技术设备。不同的动作捕捉系统依照的原理不同,系统组成也不尽相同。
总体来讲,动作捕捉系统通常由硬件和软件两大部分构成。硬件一般包含信号发射与接收传感器、信号传输设备以及数据处理设备等;软件一般包含系统设置、空间定位定标、运动捕捉以及数据处理等功能模块。
信号发射传感器通常位于运动物体的关键部位,例如人体的关节处,持续发出的信号由定位传感器接收后,通过传输设备进入数据处理工作站,在软件中进行运动解算得到连贯的三维运动数据,包括运动目标的三维空间坐标、人体关节的6自由度运动参数等,并生成三维骨骼动作数据,可用于驱动骨骼动画,这就是动作捕捉系统普遍的工作流程。
运动捕捉技术组成
传感器
所谓传感器是固定在运动物体特定部位的跟踪装置,它将向 motion capture 系统提供运动物体运动的位置信息,一般会随着捕捉的细致程度确定跟踪器的数目。
信号捕捉设备
这种设备会因 motion capture 系统的类型不同而有所区别,它们负责位置信号的捕捉。对于机械系统来说是一块捕捉电信号的线路板,对于光学 motion capture 系统则是高分辨率红外摄像机。
数据传输设备
motion capture 系统,特别是需要实时效果的 motion capture 系统需要将大量的运动数据从信号捕捉设备快速准确地传输到计算机系统进行处理,而数据传输设备就是用来完成此项工作的。
数据处理设备
经过 motion capture 系统捕捉到的数据需要修正、处理后还要有三维模型向结合才能完成计算机动画制作的工作,这就需要我们应用数据处理软件或硬件来完成此项工作。软件也好硬件也罢它们都是借助计算机对数据高速的运算能力来完成数据的处理,使三维模型真正、自然地运动起来。剧中汤姆汉克斯穿着一套布满150个感应器的黑色紧身衣,这样电脑就能把他的眼睑、嘴唇、眉毛、乃至每个身体的表情和动作捕捉到。
动作捕捉技术的种类
动作捕捉系统种类较多,一般地按照技术原理可分为:机械式、声学式、电磁式、惯性传感器式、光学式等五大类,其中光学式根据目标特征类型不同又可分为标记点式光学和无标记点式光学两类。近期市场上出现所谓的热能式动作捕捉系统,本质上属于无标记点式光学动作捕捉范畴,只是光学成像传感器主要工作在近红外或红外波段。
机械式
机械式动作捕捉系统依靠机械装置来跟踪和测量运动轨迹。典型的系统由多个关节和刚性连杆组成,在可转动的关节中装有角度传感器,可以测得关节转动角度的变化情况。装置运动时,根据角度传感器所测得的角度变化和连杆的长度,可以得出杆件末端点在空间中的位置和运动轨迹。X-1st是这类产品的代表,其优点是成本低,精度高,采样频率高,但最大的缺点是动作表演不方便,连杆式结构和传感器线缆对表演者动作约束和限制很大,特别是连贯的运动受到阻碍,难以实现真实的动态还原。
声学式
声学式动作捕捉系统一般由发送装置、接收系统和处理系统组成。发送装置一般是指超声波发生器,接收系统一般由三个以上的超声探头阵列组成。通过测量声波从一个发送装置到传感器的时间或者相位差,确定到接受传感器的距离,由三个呈三角排列的接收传感器得到的距离信息解算出超声发生器到接收器的位置和方向。其最大优点是成本低,但缺点是精度较差,实时性不高,受噪声和多次反射等因素影响较大。
电磁式
电磁式动作捕捉系统一般由发射源、接收传感器和数据处理单元组成。发射源在空间产生按一定时空规律分布的电磁场;接收传感器安置在表演者身体的关键位置,随着表演者的动作在电磁场中运动,接收传感器将接收到的信号通过电缆或无线方式传送给处理单元,根据这些信号可以解算出每个传感器的空间位置和方向。Polhemus和Ascension公司是这类产品生产商的代表,其最大特点是使用简单、鲁棒性和实时性好,缺点是对金属物体敏感,金属物引起的电磁场畸变对精度影响大,采样率较低,不利于快速动作的捕捉,线缆式的传感器连接同样对动作表演形成束缚和障碍,不利于复杂动作的表演。
惯性式
惯性传感器式动作捕捉系统由姿态传感器、信号接收器和数据处理系统组成。姿态传感器固定于人体各主要肢体部位,通过蓝牙等无线传输方式将姿态信号传送至数据处理系统,进行运动解算。其中姿态传感器集成了惯性传感器、重力传感器、加速度计、磁感应计、微陀螺仪等元素,得到各部分肢体的姿态信息,再结合骨骼的长度信息和骨骼层级连接关系,计算出关节点的空间位置信息。代表性的产品有Xsens、3D Suit等,这类产品主要的优点是便携性强,操作简单,表演空间几乎不受限制,便于进行户外使用,但由于技术原理的局限,缺点也比较明显,一方面传感器本身不能进行空间绝对定位,通过各部分肢体姿态信息进行积分运算得到的空间位置信息造成不同程度的积分漂移,空间定位不准确;另一方面原理本身基于单脚支撑和地面约束假设,系统无法进行双脚离地的运动定位解算;此外,传感器的自身重量以及线缆连接也会对动作表演形成一定的约束,并且设备成本随捕捉对象数量的增加成倍增长,有些传感器还会受周围环境铁磁体影响精度。
光学式
光学式动作捕捉系统基于计算机视觉原理[2][3],由多个高速相机从不同角度对目标特征点的监视和跟踪来完成运动捕捉的任务。理论上对于空间中的任意一个点,只要它能同时为两部相机所见,就可以确定这一时刻该点在空间中的位置。当相机以足够高的速率连续拍摄时,从图像序列中就可以得到该点的运动轨迹。
这类系统采集传感器通常都是光学相机,不同的是目标传感器类型不一,一种是在物体上不额外添加标记,基于二维图像特征或三维形状特征提取的关节信息作为探测目标,这类系统可统称为无标记点式光学动作捕捉系统,另一种是在物体上粘贴标记点作为目标传感器,这类系统称为标记点式光学动作捕捉。
1、无标记式光学
无标记点式光学动作捕捉原理大致有三种:第一种是基于普通视频图像的运动捕捉,通过二维图像人形检测提取关节点在二维图像中的坐标,再根据多相机视觉三维测量计算关节的三维空间坐标。由于普通图像信息冗杂,这种计算通常鲁棒性较差,速度很慢,实时性不好,且关节缺乏定量信息参照,计算误差较大,这类技术目前多处于实验室研究阶段;第二种是基于主动热源照射分离前后景信息的红外相机图像的运动捕捉,即所谓的热能式动作捕捉,原理与第一种类似,只是经过热光源照射后,图像前景和背景分离使得人形检测速度大幅提升,提升了三维重建的鲁棒性和计算速率,但热源从固定方向照射,导致动作捕捉时人体运动方向受限,难以进行360度全方位的动作捕捉,例如转身、俯仰等动作并不适用,且同样无法突破因缺乏明确的关节参照信息导致计算误差大的技术壁垒;第三种是三维深度信息的运动捕捉,系统基于结构光编码投射实时获取视场内物体的三维深度信息,根据三维形貌进行人形检测,提取关节运动轨迹,这类技术的代表产品是微软公司的kinect传感器[5],其动作识别鲁棒性较好,采样速率高,价格非常低廉,有不少爱好者尝试使用kinect进行动作捕捉,效果并不尽如人意,这是因为kinect的应用定位是一款动作识别传感器,而不是精确捕捉,同样存在关节位置计算误差大,层级骨骼运动累积变形等问题。总体来讲,无标记点式动作捕捉普遍存在的问题是动作捕捉精度低,并且由于原理固有的局限导致运动自由度解算缺失(如骨骼的自旋信息等)造成动作变形等问题。
2、标记式光学
标记点式光学动作捕捉系统一般由光学标识点(Markers)、动作捕捉相机、信号传输设备以及数据处理工作站组成,人们常称的光学式动作捕捉系统通常是指这类标记点式动作捕捉系统。在运动物体关键部位(如人体的关节处等)粘贴Marker点,多个动作捕捉相机从不同角度实时探测Marker点,数据实时传输至数据处理工作站,根据三角测量原理精确计算Marker点的空间坐标,再从生物运动学原理出发解算出骨骼的6自由度运动。
这里根据标记点发光技术不同还分为主动式和被动式光学动作捕捉系统:
(1)主动式光学
主动式光学动作捕捉系统的Marker点由LED组成,LED粘贴于人体各个主要关节部位,LED之间通过线缆连接,由绑在人体表面的电源装置供电。
其主要优点是采用高亮LED作为光学标识,可在一定程度上进行室外动作捕捉,LED受脉冲信号控制明暗,以此对LED进行时域编码识别,识别鲁棒性好,有较高的跟踪准确率;
缺点是:
第一,时序编码的LED识别原理本质上是依靠相机在不同时刻对不同的Marker采集成像来进行ID标识,相当于在同一个动作帧中分别针对每个Marker进行逐次曝光,破坏了动作捕捉的Markers检测的同步性,导致运动变形,不利于快速动作的捕捉;
第二,由于相机帧率很大部分用于单帧内对不同Marker点的识别,因此有效动作帧采样率较低,这点上也不利于快速运动的捕捉和数据分析;
第三,LED Marker可视角度小(发射角120度左右),一个捕捉镜头内部通常集成了两个相机近距离采集,这种窄基线结构导致视觉三维测量精度较低,并且在运动过程中由于动作遮挡等问题仍然不可避免地导致频繁的数据缺失,如果为尽量避免遮挡造成的数据缺失,需要成倍增加动作捕捉镜头的数量弥补遮挡盲区问题,设备成本也随之成倍增加;
第四,由于时序编码的原理局限,系统可支持的Marker总数有严格限制,在保证足够的采样率前提下,同时采集人数一般不宜超过2人,且Marker点数量越多,单帧逐点曝光时间越长,运动变形越严重。
(2)被动光学式
被动式光学动作捕捉系统,也称反射式光学动作捕捉系统,其Marker点通常是一种高亮回归式反光球,粘贴于人体各主要关节部位,由动作捕捉镜头上发出的LED照射光经反光球反射至动捕相机,进行Marker的检测和空间定位。
其主要优点是技术成熟,精度高、采样率高、动作捕捉准确,表演和使用灵活快捷,Marker点可以很低成本地随意增加和布置,适用范围很广;
主要缺点是:
第一,对捕捉视场内的阳光敏感,阳光在地面形成的光斑可能被误识别为Marker点,造成目标干扰,因此系统一般需要在室内环境下正常工作;
第二,Marker点识别容易出错,由于反光式Marker点没有唯一对应的ID信息,在运动过程中出现遮挡等问题容易造成目标跟踪出错,导致Marker点ID混淆,这种情况通常导致运动捕捉现场实时动画演示效果不好,动作容易错位,并且需要在后处理过程中通过人工干预进行数据修复,工作量大幅增加。不过新一代的技术都植入了先进的智能捕捉技术,具有很强的Marker点自动识别和纠错能力,很大程度上满足了现场实时动画演示的需要,并且大大降低了人工干预的工作量,从本质上进一步提升了系统的实用性。
动作捕捉技术的优缺点
优点
运动捕捉的优点是表演者活动范围大,无电缆、机械装置的限制,使用方便。采样速率较高,可以满足多数体育运动测量的需要。Marker价格便宜,便于扩充。更实际地讲,就是便于实现电影、游戏里面的各种炫酷特效。
缺点
系统价格昂贵,虽然它可以捕捉实时运动,但后处理(包括Marker的识别、跟踪、空间坐标的计算)时间长。这类系统对于表演场地的光照、反射情况敏感。装置定标也较为繁琐,特别是当运动复杂的时候。不同部位的Marker很容易混淆、遮挡,产生错误的结果,经常需要人工干预后处理过程。由于这样那样的各种限制,所以几乎所有的光学跟踪系统都还需要依靠后序处理程序对捕捉的数据进行分析,加工和整理然后才能把这些数据应用到动画角色模型上去。
动作捕捉技术主要应用领域
动画制作
将运动捕捉技术用于动画制作,可极大地提高动画制作的水平。它极大地提高了动画制作的效率,降低了成本,而且使动画制作过程更为直观,效果更为生动。
虚拟现实系统
为实现人与虚拟环境及系统的交互,必须确定参与者的头部、手、身体等的位置与方向,准确地跟踪测量参与者的动作,将这些动作实时检测出来,以便将这些数据反馈给显示和控制系统。这些工作对虚拟现实系统是必不可少的,这也正是运动捕捉技术的研究内容。
机器人遥控
机器人将危险环境的信息传送给控制者,控制者根据信息做出各种动作,运动捕捉系统将动作捕捉下来,实时传送给机器人并控制其完成同样的动作。与传统的遥控方式相比,这种系统可以实现更为直观、细致、复杂、灵活而快速的动作控制,大大提高机器人应付复杂情况的能力。在当前机器人全自主控制尚未成熟的情况下,这一技术有着特别重要的意义。
互动式游戏
可利用运动捕捉技术捕捉游戏者的各种动作,用以驱动游戏环境中角色的动作,给游戏者以一种全新的参与感受,加强游戏的真实感和互动性。
体育训练
运动捕捉技术可以捕捉运动员的动作,便于进行量化分析,结合人体生理学、物理学原理,研究改进的方法,使体育训练摆脱纯粹的依靠经验的状态,进入理论化、数字化的时代。还可以把成绩差的运动员的动作捕捉下来,将其与优秀运动员的动作进行对比分析,从而帮助其训练。
另外,在人体工程学研究、模拟训练、生物力学研究等领域,动作捕捉技术同样大有可为。可以预计,随着技术本身的发展和相关应用领域技术水平的提高,动作捕捉技术将会得到越来越广泛的应用。