先进AI视觉系统—以iToF解锁3D立体空间|传感器|AI|ToF_新浪科技

在整个AI产业中，视觉系统扮演极重要的角色。由于iToF对于距离与空间的重现具有高度的可靠度外，还有分辨率的优势。本文叙述iToF感测和技术的原理、组成组件、距离计算方式及成像技术的应用。

人工智能（Artificial intelligence；AI）经由ChatGPT生成式AI工具再度获得世人的关注，但聊天机器人需要大量且快速的运算能力来处理复杂的AI模型以及数据，而这些必须要获得高阶人工智能（AI）芯片才能支撑的运算工作。

可是在可看见的未来，AI应用会更贴近人们的生活，它只需要一般运算力需求的AI芯片，就能达到自助与自动特定功能的工作。例如：只会开车的司机，送餐送货的工人，门口的警卫，无人商店的店员，工厂的作业员，以及其他更多重复的工作内容。

AI也是需要视觉系统让虚拟的AI链接到现实环境。当AI装上Camera摄影机，就像是人的眼睛一样透过摄影机AI能精确的截取物体形状、大小、颜色、深度距离的影像，甚至能传输到云端，运行算法进行分析办识。有一句广告词「计算机嘛ㄟ捡土豆喔」，没有视觉系统的AI计算机，如何捡土豆呢?可见视觉系统，在整个AI产业中，扮演极重要的角色。除了传统的影像以外，AI更是需要获得深度或距离讯息。

iToF相机

人类的眼睛可以分辨颜色，形状与空间但是距离总是用「想象的」。这就是篮球选手距离篮框越远命中率越低的原因。 AI的视觉中，平面（2D）与颜色可以经由一般的摄影机来达成，但距离要怎么办呢? 那就需要另一只眼睛。它可以是一般的摄影机（image）或Depth传感器来协助并透过算法得到精确的距离。

侦测距离或深度的方案 :

1.采用立体视觉（Stereo Vision）

2.结构光（structured light）的方案

3.Depth传感器的种类如下：光达Lidar、iToF（Indirect Time-of- Fligh）/dToF（Direct-Time-of-Fligh）、FMCW（Frequency Modulated Continuous Wave）、超声波（Ultrasound）及雷达（Radar）

而其中iToF对于距离与空间的重现有者高度的可靠度外，还有分辨率的优势。

以下我们就原理、组成组件、距离计算方式、成像技术的应用来了解一下iToF感测和技术。

飞行测距（ToF）原理

ToF（Time of Flight；飞行测距）相机透过测量光源发送到场景中，并经由物体反射到感测组件来获取深度信息，若是透过发射波形和反射接收的时间差是dToF（Direct Time of FLY）而测量的是发射波形和反射接收波形之间的相位移则是iToF（图一）。

图一:ToF相机透过测量光源发送到场景中，并经由物体反射到感测组件来获取深度信息。

本文引用地址：

dToF和iToF在传感器原件上的区别是iToF使用CMOS工艺开发的CIS传感器（Camera Image Sensor），而dToF需要使用单光子雪崩二极管（single-photon avalanche diode，SPAD）传感器。虽然dToF有长距离与抗干扰性的特点较适用长距离的量测。而iToF在成本与空间图像分辨率的优势很适合AI应用。

iToF感测组件

外观与一般图像传感器（image sensor）无异。只是周边的逻辑电路变更让储存数据内容不同如下图（二）。

图二:iToF感测组件/图像传感器（ImageSensor）外观

以onsemi的iToF感测组件（AF0130/AF0131）为例：

‧ 背照式（BSI）CMOS工艺

‧ 1280 X 960像素

‧ Global Shutter

‧ 3.5 um 像素大小

‧ 1/3.2 传感器大小

‧ AF0130 内建深度计算处理器（Depth Processing）

Image Sensor（图像传感器）：连续时间内累积的能量（颜色或亮度）。

iToF depth传感器：在不同时间（frame）内量测到的反射能量（光发射后的飞行轨迹），并透过计算这些轨迹得到「光」飞行时间/距离。

既然iToF Depth有计算前的能量与处理后的距离（深度）。所以除了距离的讯息外，它还能以成像的方式来表现。而解度高的depth传感器，甚至可以描绘出具有细节的轮廓。

iToF核心组件与架构：雷射驱动 / 激光器或LED / 发射端光学 / 接收端光学 / 接收传感器CMOS / 深度计算

系统架构（图三）

雷射或LED（Vertical Cavity Surface Emitting Laser：VCSE或（Edge Emitting Laser : EEL）

‧ 发射端光学镜头（Lens）

‧ 雷射或LED驱动（Laser/LED Driver）

‧ 接收端光学镜头（Lens）

‧ 传感器CMOS iToF sensor

‧ 深度计算单元

图三:iToF模块图

目前市售的ToF应用大都选择850nm和940nm，主要是这两个波长的发光源器件可以使用VCSEL实现但再长的波长可能需要EEL，另一方面接收端传感器对850nm是最敏锐的，就是对该光谱的响应率最高.可以得到最佳的信噪比，940nm的感度会比850nm低，但对人眼的干扰较低。

如果波长要更长，传感器的制造会更难，在电子消费品中很少选择使用，可是在眼球保护（Eyesafe）法规下，或许不久以后，就会其他发光源器件与iToF sensor问世。

感测与计算

帧率（frame rate）是每秒可以更新距离讯息次数，所以对于移动的物体iToF 传感器具有高帧率与计算单元可以减小物体移动时间误差。一般认定每秒超过60帧（frame）为高帧率。

另外，由于计算单元需要不断计算实时相位偏移信息来获得当下的探测距离，若iToF传感器没有内建Depth Mapping处理器与记忆储存空间，那数据就需要传送所有的相位差数据到计算单元，这样就延迟了距离侦测的时效性，所以感测与计算在同一组件是最佳的方式。

iTof探测距离

indirect time of flight，非直接测量TOF，方法是测量发射端的正弦波或脉冲信号与接收端的正弦波或脉冲信号的相位差的透过算法计算出时间，也称为「phase-based ToF」。在iToF系统中，相位差的函数是测量光强度而不是时间，这是iToF的硬件使用普通的图像传感器架构的缘由，图像传感器的特点就是在一个固定时间收集光子，然后转化成电信号输出。

iTof传感器输出的是接收到的光强还有计数后的时间函数，通过对比函数与光强，计算出飞行时间。

iToF可以按发射光波的方式分成连续波调制（CW-iToF）和脉冲调制（Pulsed-iToF）。

连续波（CW）调变与调频连续波（FMCW）

连续波iToF的基本原理是将光调制为固定或多个频率f的正弦波，发射端依照频率f发射正弦波，当采集返回的光能量时，连续波iToF会根据不同的相位打开多个窗口（frame），对多个窗口相位的数据进行采样，分析该时期内发射和接收的相位差信息，然后通过公式得到距离信息。需要注意的是距离侦测（Depth）精度与频率f成正比，可检测最大距离与频率f成反比。

iToF 4个相位差资料测量

iToF是针对相位差数据来计算距离，相位分别是 0 、90 、180、270 。

但是误差存在于每个系统，因此距离侦测计算每次大概需要是4~8 frame的4个相位数据来确认相位偏移正确性（图四）。

图四:连续波（CW）调变相位差数据与计算

iToF双频测量

透过发射两个频率的光谱得到的相位差数据与计算用于长距离消除相位模糊

图五:双频测量

若是调频连续波（FMCW）方法为基础的LiDAR传感器，可提供深度、速度和极化强度的数据。而FMCW是被广泛应用于都普勒（coherent Doppler）架构为基础的技术；FMWC持续发射脉冲弦波，在讯号返回时计算发射和接收端的相位差。由于都普勒效应，该偏移是侦测物体距离和速度的函数。

脉冲式iToF

由于多个调制频率下进行四次相关函数采样。对于较长距离的测量，或场景中环境光较强时，对连续输出功率要求较高，会影响加热和稳定性。

而功率高对人眼安全相关法规也是不利的。因此可透由改变发射脉冲模式或选择更长奈米波长的光（>950奈米波长），来达到更长距离的目标侦测。例如：功率提高到30W但调制频率由100Mhz降为10Mhz（图六）。

图六:脉冲式iToF调变与功率示意图

iToF相机应用: 「3D/4D」的空间地图与对象识别

从现实与虚拟的AR/VR到人脸或手势辨识 AI可以认知将为某人提供适合的服务。AI自主移动机器或机器手臂可以知道在仓库移动与搬运对的物品，甚至可以应用在汽车的自动驾驶与安全辅助。

iToF相机优势

1. 内建Depth Mapping处理器与记忆模块（Memory）。

2. 百万像素（Mage）等级的像素分辨率。

3. 低动态拖影（Low Motion Artifacts） & 高帧率（Hight frame）。

4. 长景深距离与高环境光抑制。

5. 短距离与人眼保护—奈米波长与频率响应（Quantum Efficiency）。

机器视觉的方案经由各种的传感器搭配且要有快速及高更新率，来维持实时且准确的空间地图。然后，以AI为基础的智能产品，才能透过最精确的讯息以达成任务。

所以，综合以上iToF相机的优势是实现「3D/4D」的AI视觉—空间地图与定位的最佳方案。

运动伪影

当要辨别运动的物体或手势往往是一个瞬间发生的动作若相机没有高效率与高帧率（Hight frame）常常会造成拖影或辨识错误，像机器手臂或自主移动机器人就需要高效率与高帧率的特性。

图七:运动伪影及应用

百万像素的像素分辨率

而百万像素（Mage pixel）等级的像素分辨率，如同让人一眼就看出真假与辨识出特征，就尤其在人脸的识别上是不可或缺的特点。

不受人工或自然的光源干扰

COMS Sensor具有高量子效率（Quantum Efficiency；QE）能对入射光子400~1100nm波长的光谱能量，能够更有效率转换成电子的讯号。这就是先前提到为何光源可以选择850nm~940nm波长的不可见光，并透过控制雷射或LED驱动，让侦测做弹性的变化且搭配波长的不可见光，不管室内室外都不会被人工或自然的光源所干扰。

图八:不受人工或自然的光源所干扰

长短距离侦测

1. 短距离 : 发出能量低的光谱搭配较高的频率以提高精确度。

2.长距离 : 提高雷射或LED能量但搭配较低频率，除了延长有效测距的范围外还可以抑制发射端功耗降低散热问题。

图九:长度离延伸及室内室外的应用

结论

ToF应用非常多，电子消费领域有人脸辨识、照相机辅助对焦、接近传感器、体感互动、手势识别、AR、机器人/无人机避障与3D/4D场景扫描等等；工业和安防应用可以用于工业自动化机器人、人数统计、智能停车场、智能交通、自动化仓储管理、电子围篱及距离测量等；汽车领域则可以用于智慧驾驶辅助、哨兵模式或自动停车。

若是导入以AI为基础算法，上述应用则会进一步智能化，AI能根据视觉系统反馈的讯息重现空间并进行对象识别，除了距离（depth）外 AI 还可以经由帧（frame）与帧的讯息差异进行移动物体的速度计算。因为AI可以确切了解目标物，并控制自身的行动速度及高精确度，如此可以推算正确的指令。

未来AI更会搭配ToF与影像系统深入各种消费、信息安全、工业自动化、自主机器人与汽车安全的应用，让每个产品都像个可靠的AI机器人，这需要高解析深度成像技术的iToF与影像视觉系统的空间与定位来给与达成决各种任务的眼睛。

随着应用提升CPU任务繁重可想而知，从单纯的距离感知到自主行动最终达到AI互动的能力。因此就近传感器进行数据处理的必要性；如果可能，应该所有预处理、清理和AI强化都必要在传感器的位置进行，以减轻CPU的负担。就像人类的神经反应一样，不需要每个动作都要经过大脑思考。目前已有直接距离计算的能力的产品，所以对于距离，事实上可以直接反应只是「运算」能力如何附加与克服附加之后的散热问题。

（本文作者李明杰为茂纶公司应用工程经理）