超算迎来“通久必专”转折点？专用超算玩家已建起产业应用护城河|超算|超级计算机|AI_新浪科技

在计算技术的发展历史上，一直都存在通用与定制之间的反复交迭。纵览当今的超级计算机产业，「通久必专」的趋势也正在发生。

超级计算机产业链整合了从硬件制造、软件开发到应用服务的全流程。产业链上游的核心组成部分包括高性能处理器芯片、服务器集群、高速网络设施和大型存储系统等硬件设施，这些构成了超级计算机的基石。此外，要保证超级计算机的高效运行，还需要倚赖关键的支持系统，如操作系统、管理系统，以及针对特定应用领域设计的专业软件工具。同时，精密的冷却系统和稳定可靠的供电设施也是不可或缺的组成部分。

随着超级计算机产业的持续演化与深化，对不同种类超级计算机的需求出现了变化和发展。一方面，通用超级计算机如美国橡树岭国家实验室的前沿（Frontier），因其广泛的适用性和卓越的计算性能，广泛应用于多种科学研究和工程计算场景。另一方面，随着问题复杂度和专业化需求的增长，专用超级计算机如美国D.E. Shaw Research的安腾（Anton）逐渐崭露头角。这类专用超算通过深度定制硬件和软件，专为解决特定领域的复杂问题而设计，追求在特定应用场景下的计算效能最大化，反映出“通久必专”的趋势。

美国前沿超级计算机 | 图片来源：网络

具体来说，通用超算的设计目的是执行多样化的高性能计算任务，能在多个领域发挥作用；而专用超算则针对特定应用或计算任务对软硬件进行深度优化。在评价指标上，通用超算追求的是总体的峰值计算速度，而专用超算更关注在特定问题上提升计算效率。

在通用超算持续突破计算速度上限的同时，专用超算的重要性愈发明显，二者互为补充，共同推动着超级计算机技术的持续进步和广泛深入应用。

为什么要重视专用超算？

首先是应用的需求。超算的价值最终要落地到具体的产业当中，不能只是建造空中楼阁。中国科学院院士、北京航空航天大学教授钱德沛在接受《中国科学报》关于全球超算竞争话题的采访时就强调，超算不应该是只有少数人用得起、用得上的“重器”，而是越多人参与、越多人使用越好。

目前，很多科学领域都有巨大的计算需求，比如生命科学、高能物理、气象预报、航空航天、人工智能等，都有与高性能计算融合的趋势，所以专用超级计算机的应用市场是一片值得探索的蓝海。专才能精，对于特定科学和工程领域的复杂问题，专用超算能够提供巨大的计算资源作支撑，帮助研究人员更快地获取科学现象本质，更好地满足特定领域的海量数据处理和复杂模拟的需求，加快科学发现和技术创新，比如加速药物研发、AI 大模型训练进程等。

再看计算的能耗与效率问题。超算发展到今天，摩尔定律放缓，计算速度在不断加快，但能源效率的提升并没有跟上。在 2023 年 ISSCC 会议（IEEE 国际固态电路会议）上， AMD 的 CEO Lisa Su 就指出，依目前的计算效率，十年后的超级计算机可能需要高达 500 兆瓦的电力，与一座核电站的规模相当。

对于能耗问题的解法，业内持续提及的有两个共识，一个是要改进处理器的架构，使其更加专业化，让芯片的各个部分仅在需要做特定类型计算时才会全功率运行，以节省不必要的计算功耗，另一个就是更多地面向特定领域的计算需求。这二者结合起来，其实就是专用超算的发展路线。

与通用超算一刀切式的设计不同，专用超级计算机会针对特定的计算任务或应用领域，对硬件和软件做专门的高度优化，从芯片架构到通信网络以及软件层的设计都是专项定制，以实现更高的计算速度和处理能力，所以在处理特定场景大规模并行计算问题时，专用超算的能效比更高。

其次，专用超算的功能需求单一，需要配备的软件也更加专业化，维护成本没那么高。

另外，专用超算的目标用户非常垂直，机器使用率也就更高，投入回报率相比通用超算更高。

正是由于以上原因，当下各个科技公司都开始投入自研人工智能专用超算。比如特斯拉推出了用于训练自动驾驶模型的超级计算机 Dojo，英伟达最近也发布了面向企业的 AI 超算 Eos。

根据特斯拉官方数据，其定制的 D1 芯片在自动标注任务中的计算性能是英伟达的 A100 GPU 的 3.2倍，在占用网络（occupancy network）任务中最高能够实现 4.4 倍的计算性能。而且，同样的成本下，Dojo 计算系统的占地面积缩小为以往的 5 倍，能耗比提升 1.3 倍。

英伟达的 Eos 也是针对 AI 大模型任务的超低延迟和高吞吐互连需求做了架构上的优化，并配备了专为 AI 开发和部署的软件，使其能够应对各种 AI 应用。

不过，在大模型引发的 AI 专用超算热潮之外，于 2007 年就首次发布的分子动力学模拟专用超算安腾，其实尤其值得我们重视。

解决专用超算卡脖子，从安腾超级计算机取经

在一众超算玩家中，专注于分子动力学模拟的安腾超级计算机对中国来说不容忽视。因为一方面，超算安腾在技术上做到了顶尖，甚至形成了垄断性的地位，另一方面，其在病理研究、药物研发相关领域发挥了巨大的应用价值。

安腾超级计算机 | 图片来源：网络

在分子动力学模拟领域，D. E. Shaw 研究所发布的安腾超级计算机已经实现了绝对碾压的性能。其计算效率比全球最强的超算Frontier还要高上数十倍，在执行分子动力学模拟时的计算速度比目前的通用超算快 100 倍，能够在几天内就获得毫秒级别上数百万原子体系的运动过程。

安腾超级计算机第二代芯片 | 图片来源：网络

国内还尚未出现能与安腾超级计算机匹敌的分子动力学模拟设备，甚至不得不面临被卡脖子的局面：世界上仅有的几台安腾超级计算机设备都受到美国国家科学院独立专家委员会的管控，严格对中国实行禁售和禁用，无论是大的研究机构还是个体科研工作者，在面对复杂计算需求时只能望洋兴叹。技术差距是明显的，我们目前的分子动力学模拟计算速度还未赶得上二代安腾，未来安腾继续升级迭代，差距恐怕会越来越大。

在落地应用上，安腾超级计算机更是一个值得关注的标杆。美国的老牌制药公司 Schrödinger 和制药新锐 Relay，都通过超算安腾的支持加速了其新药研发的速度，获得了丰厚的市场利润。例如，背靠安腾超级计算机第二代的支持，Relay大幅缩短了新药研发周期，仅用了18个月、花费不到1亿美元的成本便成功确定了RLY-4008的结构，颠覆了传统的药物研发投入“双十定律”（即需要投入10年、10亿美金才能进行药物研发）。此外，在新冠疫情期间，D. E. Shaw 研究所还发布了对新冠病毒的重大科研突破：他们成功运用安腾超级计算机进行了3CL蛋白酶长达100微秒的高精度分子动力学模拟，并同步发布了模拟动画和数据资料，这对新冠病毒的病理研究和药物研发起到了重要的推动作用。

要打造一台属于中国自己的安腾超级计算机，就必须从技术层面对其有足够的认识。安腾超级计算机的设计核心就是定制化，在硬件上，它的芯片、主板和布线都由 D. E. Shaw 研究所特殊设计。

就最关键的芯片架构而言，安腾超级计算机采用了 512 个从头深度定制的 ASIC 芯片，并在芯片上分区域、分精度计算不同任务，能够精细化地专门执行分子动力学模拟中最耗费资源的计算任务。数据会直接到达需要的地方，不会中途停止或弹出到全局内存中，系统有足够的内存且是分布在整个芯片上，达到了高带宽和低延迟的效果。另外，在芯片制造工艺上采取了小芯片架构，从最初的 90 纳米降低到 40 纳米，架构上的各种计算元件数量增加了 2 倍到 5 倍，计算元件的速度也增加了1.7 倍至 3.4 倍，因此能够模拟更大的原子体系。软件方面，D. E. Shaw 研究所还配备了专用的分子动力学软件平台 Desmond，实现了整个软硬件设备的完全定制化。

回过头看，不止是生命科学领域，在各个科学领域的计算需求规模都越来越大的今天，要实现更多基础科学的突破、打破国外的技术垄断、开拓更大的市场应用空间，发展专用超算无疑是一个必要的路径和弯道超车的机会。