来源:DeepTech深科技
2021年底,腾讯首度公开自研芯片进展,三款芯片分别为面向AI计算的“紫霄”、用于视频处理的“沧海”,以及面向高性能网络的“玄灵”。时隔一年多,腾讯再度披露自研芯片最新进展。
腾讯指出,自研芯片“沧海”已经广泛应用到实际环境,并斩获8项世界第一。在4月15日莫斯科国立大学举办的MSU硬件视频编码比赛中,编解码芯片“沧海”包揽了所参加的两个赛道8项评分的全部第一。
去年3月,“沧海”芯片顺利“点亮”。据了解,“沧海”目前已经量产并投用数万片,在云游戏、直点播等场景中,服务腾讯自研业务及公有云客户。
MSU是视频压缩领域最具影响力的顶级赛事,迄今已连续举办了十七届,吸引了包括亚马逊、英伟达、英特尔、AMD、字节、快手、阿里和腾讯在内的国内外知名企业参与。
具体来看,SSIM (结构相似性)、PSNR(峰值信噪比)和VMAF(视频多方法评估融合) 等多项评价指标,沧海芯片大幅领先行业GPU等标品硬件。值得一提的是,在120fps的高帧率档位上,在同等画质下沧海较行业领先ASIC水平能再节省10%码率。
作为全真互联时代的交互模式和关键技术,音视频背后的编解码能力至关重要。基于自研芯片与软件的联合调优,腾讯云的音视频编解码能力已达业界领先水平。
瞄准编解码领域核心难题
多媒体业务进入音视频直播时代,4K/8K的超高清内容对云计算基础设施提出了难题。如何在降低成本的同时,最大化还原画质、实现低延迟,是全真互联时代面临的难题。业界已有的通用处理器,并非针对数据中心转码场景定制开发,部署中很难兼顾真实场景的全方位挑战。
2019年初,腾讯蓬莱实验室、香农实验室联合启动编解码芯片”沧海“研发。对硬件编解码的算法、架构和工程进行深度攻关,向高画质、低延迟、低成本的“不可能三角”发起挑战。
基于自身在底层软硬件架构和音视频领域的多年积累,研发团队对每个模块的计算任务都作了并行拆解。通过分配不同的计算单元,从而叠加大量处理任务;为沧海芯片内置视频编码加速专用功能模块,让流水控制逻辑更纯粹,减少重复计算和分支判断,带来更低的功耗和成本。
沧海芯片的编码器设计中完整实现了高精度运动搜索、全率失真优化、高效自适应量化等所有主流编码工具,并融合腾讯云软件编码器码率控制等方面的领先技术,压缩率高于市面标品35%以上。
在硬件架构上,通过将视频预分析计算单元进一步卸载到硬件中,沧海芯片大幅减少了高密度转码场景下任务对CPU性能的依赖,将转码性能提升到更强。通过灵活的多核扩展架构、高性能编码流水线、层级化Memory布局,沧海芯片能满足高吞吐、低时延和实时性要求。
根据MSU实测数据,从各项指标看,在同码率下,相较于业界GPU等标品硬件,沧海能大幅改善画面质量;在120fps的高帧率档位上,同等质量下,沧海比行业领先水平进一步节省10%以上的码率;另外,沧海芯片的单帧1080p的编码耗时仅4毫秒,吞吐性能几乎不受到编码参数、视频类型的影响。
已在业务场景规模应用
沧海芯片目前已经量产并投用数万片,在云游戏、直点播等场景中,面向腾讯自研业务和公有云客户提供服务。
在直播平台中,观看人数小于200人的中长尾直播是主体,沧海芯片能帮助节省大量计算成本;在4K/8K超高清、高帧率场景中,相对软件编码,沧海芯片能实现低延时的高质量转码。
腾讯丰富的多媒体应用场景,提供了充分的分析和验证条件,让沧海芯片迭代出更有针对性的场景解决方案。例如,针对云游戏场景,沧海芯片的瑶池板卡,可以灵活配比不同厂商GPU。针对视频转码场景,沧海芯片提供单机1024 路的高密转码能力,将转码成本降至最低。
软硬件的联合调优,也为腾讯云媒体处理(MPS)带来了领先的产品优势。现在,腾讯云能提供音画质增强、云原生录制、实时特效渲染、智能编辑、内容分析理解等服务,为用户提供更低成本、更低延时、更极致压缩的处理效果。
在去年专业流媒体技术社区SLC发布的报告中,腾讯云MPS超越亚马逊AWS、微软Azure等国际云厂商,摘得三大场景下性能全部最优。
芯片是硬件中最核心的部分。面向业务需求强烈的场景,腾讯有着长期的芯片研发规划和投入,结合算力场景,推动自研芯片规模落地。目前,腾讯已经实现芯片端到端设计、验证全覆盖。
除沧海芯片外,腾讯自研的AI推理芯片”紫霄“,采用自研存算架构和自研加速模块,可以提供高达3倍的计算加速性能和超过45%的整体成本节省,目前也已在内部业务中投用;高性能网络芯片“玄灵”,助力云计算场景实现虚拟化零损耗。
基于底层软硬件技术的持续突破,腾讯正持续探索最优性能和最佳性价比,助力更多的企业和开发者云上创新。
“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)