Apple Vision Pro的工作原理是什么呢?

自从Vision Pro发布后,掀起了一波热潮,已经成为苹果首款头戴式AR设备,这款产品有可能加速新一代操作系统的演进,国内AR的步伐也在推进,那么Apple Vision Pro的工作原理是什么呢?接下来集英科技小编就给大家简单的介绍一下。

Apple Vision Pro

一、什么是VR、AR、MR?

VR(Virtual Reality)虚拟现实,是模拟生成三维空间虚拟环境,并为用户提供多种逼真的感官体验(包括视觉、听觉、触觉等)。

AR(Augmented Reality)增强现实,是实时计算摄像机的位置及姿态,并在摄像机捕捉到的真实场景画面上叠加相应虚拟信息。

MR(Mixed Reality)混合现实,MR与AR相近,都是一半现实一半虚拟,如果虚拟信息只能简单叠加在现实事物上,那就是增强现实。而混合现实则需要在一个能与现实世界各事物相互交互的环境中。

虽然网上有争论,Vision Pro到底是AR还是MR,但苹果从来不会拉低自己身份,直接跳过VR、AR、MR的概念,将自己重新定义为“空间计算设备”!不过小编还是倾向于认为Vision Pro是一款AR产品。

二、AR的系统组成

一个完整的AR系统是由一组硬件设备与相关的软件系统共同实现的。从硬件结构上来看,Vision Pro属于头盔显示式AR系统,其由三部分组成:真实环境显示通道、虚拟环境显示通道及图像融合显示通道。

这三个通道需要摄像头和传感器(如:IMU传感器、GPS传感器等)来实现,将真实和虚拟场景完美整合并呈现到人眼前,且能进行交互。

三、OST与VST

OST(Optical See-Through)光学透视技术

搭配OST的光学透视式头盔显示器通过在使用者眼睛前方放置光学合成器来工作。这个光学合成器是半透明材质的,使用者可以直接看到真实的环境景物。同时,它又具有一定的反射作用,可以将由头盔中的投影仪所产生的虚拟物体反射到使用者的眼睛里。下图展示了光学透视式头盔显示器的原理。

目前的大部分光学透视式头盔显示器都会减少来自真实世界的光线,所以它们在断电的时候就像一副太阳眼镜一样。

VST(Video See-Through)视频透视技术

与光学透视式头盔显示器相反,视频透视式头盔显示器由一个封闭式的头盔和一两个放置在头盔上的摄像机组成。

由摄像机给使用者提供真实环境的图像。虚拟物体的图像由场景生成设备产生,然后和由摄像机拍摄的图像合成起来。合成后的视频则由封闭式头盔中放置在使用者眼睛前方的小型显示器显示给使用者。下图表示视频透视式头盔显示器的原理。

既然OST和VST并存,就肯定都有自己的优缺点:

OST的优势是低成本和轻量化,因为它是通过半透明材料直接看到现实世界,不需要对现实世界做重建处理,因此对算力、对传感器等诸多东西都会降低要求;但缺点就是不能随意改造现实世界,虚实融合也不够好。

VST的优势是更好的沉浸体验,它是利用摄像头来捕捉真实世界的影像,然后投射在屏幕上,用户看到的一切都是虚拟设备想让他看到的样子,因此虚实融合上肯定更好,能让用户有更好的沉浸体验;缺点自然就是对硬件配置要求高,且较重。

苹果的Vision Pro就是走的VST路线,因此2.5万元的价格和一斤多(600多g)的重量,是不可忽视的缺点。

四、三维注册技术

OST和VST让我们理解了为什么现实世界和虚拟世界能融合,但融合后如何让用户的沉浸体验达到最优,则需要解决三个一致性问题:

1、几何一致性:是解决虚拟对象和真实场景在空间中的一致性,这样看到的混合景象才会协调和统一;

2、光照一致性:是虚实融合场景真实感绘制的要求;

3、时间一致性:是实时交互的要求。

解决上述一致性问题的最核心技术是三维注册技术。它是实时计算出相机与真实环境(世界坐标系)的相对位姿(包括平移和旋转),并将需要叠加的虚拟信息依据相对位姿实时绘制在屏幕中,完成三维注册过程。

三位注册技术的性能主要体现在实时性和鲁棒性。实时性要求注册算法有足够快的速度,以免造成叠加延迟、掉帧;鲁棒性要求注册算法足够健壮,可以应对光照变化、图像模糊、局部遮挡等非正常状况。

而三维注册方式大致分为3种类型:基于硬件传感器的跟踪注册、基于二维标识的跟踪注册以及基于自然特征的无标识跟踪注册。

1、基于硬件传感器的跟踪注册:主要依靠全球定位系统(global positioning system,GPS)、陀螺仪、重力加速计、位置跟踪器等硬件设备直接获得摄像机的位置和姿态。这种方式计算量最小,实现最容易,不需要进行图像处理、特征提取与匹配等复杂计算。但此类方法精度有限且受环境影响较大,注册误差会随时间增长而累积,鲁棒性容易受到遮挡、距离、环境条件的影响,主要适用于大尺寸、敞开环境下的三维跟踪注册。

2、基于二维标识的跟踪注册:是指在场景中事先放入带有特定图案的平面标识物体,当其出现在摄像机捕捉到的图像中时,利用图像处理相关算法对其进行识别与检测,并以此推算摄像机的位姿,达到对三维场景进行注册的目的。此类方法计算量较小,实现相对容易,识别与检测算法基本成熟,但因为其必须出现在视野范围内才能完成注册过程,故使用范围受到一定限制。

3、基于自然特征的无标识跟踪注册:是在没有标识物的情况下,对目标物体的点、线、纹理等外形或几何特征进行描述与提取,在应用过程中利用图像处理相关算法进行相应的特征提取与匹配来建立投影面与三维空间之间的对应关系并在此基础上完成注册过程。但此类方法计算量大,算法复杂度高,如何保证算法的实时性与鲁棒性一直是研究热点与难点。