低延迟多源超眼计算成像技术及应用｜上海市科学技术奖|相机_新浪财经

转自：上观新闻

强国复兴有我

2023年度上海市科学技术奖

优秀创新成果展示

10月23日，上海市科学技术奖再度揭晓。胸怀“国之大者”，坚持“四个面向”，一大批标志性成果竞相涌现，为正处于关键跃升期的上海国际科技创新中心建设增添底色和亮度。

2023年度上海市科学技术一等奖获奖项目优秀创新成果来啦！本栏目以“强国复兴有我”为主题，重点围绕项目要解决的问题、取得的重要创新、实际应用效果等方面，向社会公众作科普宣传。

本期“档案”大揭秘

项目名称：低延迟多源超眼计算成像技术及应用

完成单位：复旦大学

完成人：曾晓洋等

奖励等级：技术发明一等奖

光是人类对物理世界进行观测与感知最重要的载体之一,人类通过人眼接收场景中物体发出的光线进行感知。成像感知系统是人眼的延伸,它能够捕获、记录、分析场景的光信息。然而,现有的成像感知系统依赖于传统的安防相机，它们在单点、单目标、近距离等小场景应用中可以呈现二维平面的图像信息，但是缺乏对多点、多目标、远距离等大场景的探测与感知能力，尤其是无法探测距离、速度等三维信息。

如图1所示，当前的监控系统对于城市道路、室内、场馆等已经形成了很好的覆盖，但是对于“全场景智慧”而言，仍然存在巨大的监控盲区。比如，对于图1城市高点区域，目前没有有效手段探测无人机、鸟类、高空抛物等；对于城市建筑工地，由于相机部署困难无法做到全场景覆盖和全场景人工智能安全监测；对于港口等水域，由于传统相机的近距离小场景局限性，无法做到大场景下的监控识别、环境监测和人员搜救等；对于山林、草原等野外场景，由于传统安防部署困难导致成本极高，也无法做到如森林防火、环境监测、灾害预警等。

因此，“全场景智慧”亟需拓展当前的安防监控相机对三维大场景空间的信息获取能力，突破单点、单目标、近距离、二维信息的局限性，实现对多点、多目标、远距离、全场景信息的计算成像能力。

图 1 当前智慧城市存在监控盲区，亟需从二维、单点覆盖扩展到立体全场景监视

目前，国内外解决全场景计算成像的主要途径是通过超眼相机实现，其成像方式主要是将多个极低成本的光学相机，以多尺度方式灵活地组合，基于先进的计算成像思想，以图像算法的算力代价换取多源传感器的硬件成本。基于该原理的相机系统通过分视场采集突破了空间带宽积的限制，同时通过引入全局尺度相机克服了分视场相机的像差与畸变，并通过跨尺度视频融合算法规避了复杂的相机系统的装配和标定，同时规避了精密光学部件的设计和制造需求，从而极大地降低了系统的成本。

但是，多尺度目标探测感知原理和跨尺度映射与融合机制仍未被有效揭示，目前的芯片硬件算力无法支撑其亿级像素视频的算法需求，系统实时性无法得到满足，检测性能也未能达到三维空间探测感知需求。因此，如何充分发挥超眼相机的大场景、高分辨率图像优势，结合其在距离探测、运动捕捉方面的成熟优势，有望能够实现低延迟、高分辨率、高准确性、全天候的“全场景”超眼计算成像与感知成为研究的热点和难点问题，也是新一代人工智能（AI）大场景应用落地的关键底座技术之一。

鉴于此，本项目聚焦上述技术挑战，围绕低延迟多源超眼计算成像系统核心技术开展系统深入研究，在多源多尺度视频拼接融合计算成像方法、毫秒级延迟视频专用硬件处理器、以及面向亿像素的端边协同分布式智能工具链等方面获得重要创新技术突破，满足了“看得快、看得广、看得远、看得清和看得准”的需求目标，打造了“多源数据融合+3D数字孪生+亿级像素视频实时成像”细分领域的国际先进、国内领先的自主创新技术和产品。具体内容如下：

“看得远、看得广”：

多源多尺度视频拼接

融合计算成像方法创新

图 2 多源多尺度视频拼接融合计算成像产品

针对低重合度、高通道数、全天候场景下的计算成像难题，发明了多源多尺度视频拼接融合计算成像新方法，用以消除鬼影、色差，并增强极低照度下的成像质量，可以支持重合度<100像素、通道数>40、照度≥0.0005 Lux，分辨率≥10亿像素的计算成像。该项创新技术已经在上海复瞰科技有限公司实现技术成果落地应用（如图2所示），成功研发成功多路高清视频拼接融合FK-MS200服务器、FK-C500S共心复合尺度全景相机和FK-X255S共心多焦段智能阵列相机等产品，将多达40路的4K高清视频流完美融合，从而提供实时高效全场景的高分辨率无缝拼接画面，适用于“超高清晰、超远距离、超大场景”国防/民航/交通/边海防等重要场景。

“看得快”：超低延迟的视频专用

硬件处理器技术创新

针对亿像素下的海量数据读写带宽瓶颈和实时视频编解码难题，本项目发明了毫秒级超低延迟的视频专用硬件处理器创新技术，研制了支持40~80路可扩展的视频实时拼接处理器，以及小于1毫秒延迟的新型浅压缩视频编解码处理器。

该技术已经在上海复瞰科技有限公司实现技术成果落地应用与转化（如图3所示），研制的MF65硬件加速处理器支持最多64路4K视频的实时无缝拼接融合，可配套复瞰科技自主复眼阵列机或第三方相机使用，产生8K@30fps超高清实时的全景视频。产品采用FPGA+嵌入式系统的硬件创新架构，内置先进视频图像无缝拼接融合算法，硬件并行加速的视频编解码处理技术，满足高性能、低延时的性能指标。

图 3 超低延迟的视频专用硬件处理器

“看得清、看得准”：

面向亿像素的端边

协同分布式智能工具链创新

针对亿像素全链路视觉处理与应用系统开发难的问题，本项目发明了轻量化专用神经网络处理器，研制了端-边协同分布式智能计算系统与部署工具链，实现了端-端得处理延迟<50ms。

基于该创新技术，项目实现了低面积、低功耗、高精度的探测感知部署方案，被广范应用在军/民用航空、高铁、军工等数字化监测场景。同时，项目技术已经在上海复瞰科技有限公司实现成果落地应用与转化（如图5所示），成果一为智能边端分析盒FK-AI200，具备22Tops算力，可实现8~16路高清视频解码及实时动态检测；成果二为FK-X255S型亿像素智能复眼云相机，像素为2.55亿，帧率30帧，最低照度0.0005lux，视频码率为2-320Mbps，可实现200米车牌自动抓取识别、1.5km实现人及车辆自动识别。

图 4 面向亿像素的端-边协同分布式智能计算系统

综上所述，团队研制的低延迟多源超眼计算成像技术突破目前大场景视频图像应用中无法同时取得广域高分辨率和高实时性性能这一重大技术瓶颈，成功解决了低重合度/高通道数/全天候大场景下的亿像素计算成像、多源传感器/多视角/多尺度下的联合校标、非结构化海量图像数据融合和算力匮乏矛盾、以及全链路亿像素图像视觉算法部署效率低等诸多技术难题，在我国第一次实现了全链路自主创新的亿级像素计算视觉核心技术、产品及其应用系统，填补了在大场景机场、高铁、国防等领域的数字化智能信息系统的空白，并获得技术领先和市场占有率的优势，为数字中国战略提供了广域智能感知的创新技术底座。

成果支撑形成了1项民航领域标准，为多个国防重大工程提供了核心创新技术，服务于“数字中国”国家战略。项目共获得授权发明专利71件，软著29项，论文107篇，在国际上产生了重要影响。并获得工博会“优秀展品奖”、高交会“优秀产品奖”、国际“日内瓦发明展”金奖，成果为我国关键基础设施运维提供了数字化的安全保障，为新一代人工智能（AI）大场景应用落地奠定了自主创新技术的基石。

供稿来源：上海市科学技术奖励中心

供稿：曾晓洋

编辑：蓝悦