跳转到路径导航栏
跳转到正文内容

国防科大“天河一号”超级计算机系统研制纪实

http://www.sina.com.cn  2009年10月30日 09:02  红网

  

国防科大“天河一号”超级计算机系统研制纪实

  (科研人员调试系统硬件。何书远 摄)

  “天河一号”横空出世,在我国高技术领域增添了浓墨重彩的一笔,为新中国成立60周年献上了一份厚礼。

  由国防科技大学研制的我国首台千万亿次超级计算机系统“天河一号”的诞生,是我国高性能计算机技术发展的又一重大突破,是国家和军队信息化建设的又一重要成果,标志着我国超级计算机研制能力实现了从百万亿次到千万亿次的重大跨越,成为继美国之后第二个能研制千万亿次超级计算机系统的国家,为解决我国经济、科技等领域重大挑战性问题提供了重要手段,对提升综合国力具有重要战略意义。

  面对严峻挑战,瞄准国际前沿,

  抢占科技制高点

  当今世界,高性能计算已成为理论和试验之外的第三种科学研究手段,是推动科技创新和经济社会发展的战略高技术。2007年11月,美国研制出世界首台千万亿次超级计算机,峰值计算速度每秒1456万亿次。在2009年6月公布的世界超级计算机500强(TOP500)中,美国占据291席,欧洲占据145席,且前10名均为美国产品。与发达国家相比,我国不仅在计算能力上相差一个量级,装机数量也相去甚远。

  在日新月异、竞争激烈的超级计算机研制领域,不进则退是十分现实而残酷的生存法则。面对高性能计算领域的严峻挑战,国防科大计算机学院的科研人员再次吹响了攀登世界科技高峰的冲锋号——瞄准国际前沿,实施超前部署,加强技术积累和预先研究,积极抢占战略制高点,争取早日研制出我国的千万亿次超级计算机系统。

  这支被中央军委授予“科技攻关先锋”荣誉称号的优秀团队,在高性能计算领域有着辉煌创新成果:1983年研制出我国第一台亿次巨型计算机,实现了我国巨型机“零”的突破,之后又相继研制出不同量级的“银河”系列巨型机,一步步将我国巨型机研制水平推向世界前列。但他们清醒地知道,要实现从百万亿次到千万亿次的跨越,将比过去任何一次创新进步都要艰难得多。

  该院根据国际高性能计算发展趋势与最新动态,组织专家教授进行深入论证,确立了以国家和军队战略需求为牵引,以原始创新与集成创新相结合,实现自主创新能力整体跃升的发展思路。他们组织精干的技术力量,针对高性能计算发展的前沿技术、关键技术和新兴交叉技术等方面开展基础研究和前沿探索,相继突破了大规模可扩展共享存储体系结构等一系列技术难题,掌握了一批拥有自主知识产权的关键技术,为研制更高性能的超级计算机奠定技术基础。

  机遇总是垂青有准备的人。当我国将发展千万亿次超级计算机系统列入《国家中长期科学和技术发展规划纲要》时,该院凭借充分的技术储备和先进的研制方案,以及天津市滨海新区的大力支持,顺利获得国家“863”计划重点课题的支持。

  群策群力攻关,坚持自主创新,

  突破核心关键技术

  世界超级计算机的发展表明,计算能力每提高一个量级,都需要体系结构的创新和一系列关键技术的新突破。

  作为我国超级计算机研制的重要基地,国防科大计算机学院虽然具有较为雄厚的技术积累和丰富的工程实践经验,但要实现从百万亿次到千万亿次的技术跨越,同样是阻碍重重。面对多方面的技术难题与严峻挑战,科研人员在总结过去超级计算机研制经验的基础上,群策群力,集智攻关,坚持自主创新,努力攻克核心关键技术,推动我国高性能计算事业向前发展。

  在千万亿次超级计算机的体系结构设计中,他们创造性地提出了多阵列、可配置、协同并行体系结构,通过实现“CPU(通用微处理器)+GPU(图形加速处理器)”的异构协同计算,融合多种计算资源并对其灵活配置,最大限度提高计算效能。他们经过长期封闭攻关和反复探索,一举将GPU的计算效率从国际上通常的20%提高到70%,系统运算速度得到大幅提升。

  为满足各类用户对超级计算机的开放性和安全性要求,科研人员开发了国内最高的B2级安全标准的操作系统,并通过软件安全隔离和虚拟域技术,构造相互隔离的用户独立工作环境,有效实现了开放网络环境下用户保密信息的安全隔离。多个用户共同使用“天河一号”时,都有独立的计算空间和完全隔离的工作环境,满足用户对安全性的特殊要求。

  系统容错性能是评价超级计算机系统的重要指标。科研人员在“天河一号”软硬件规划中,专门设计了监控诊断子系统,采用分布式集中管理结构,实现全系统的实时安全监测、系统控制和调试诊断等功能。他们还建立了多层容错技术,通过操作系统的检查点功能、资源管理的任务级和作业级容错技术,以及容错并行算法和断点续算功能,有效提高了系统的可靠性。

  随着一系列关键技术的突破与工程实现,“天河一号”具有了高性能、高安全、高能效和易使用等显著特点,拥有卓越的性能和显著的应用优势。

  以“胸怀祖国、团结协作、志在高峰、奋勇拼搏”的“银河精神”,

  科学推进重大项目攻关

  

  千万亿次超级计算机系统的研制是一个复杂的系统工程,技术起点高、研制难度大、研制时间紧。科研人员在突破一系列关键技术的同时,在工程组织管理与质量控制方面也面临着重大考验。

  在“天河一号”的研制中,国防科大计算机学院优化人才资源配置,充分发挥领军人物的主导作用和团队的集体智慧,每周召开难题会诊例会,发动大家积极建言献策,在集思广益的基础上形成正确决策,确保了项目研制的正确方向,提高了研制效益。

  “天河一号”研制之初,他们就制定了“质量保证大纲”和“可靠性大纲”。在硬件设计上,科研人员遵循严格的设计程序和检测环节,确保系统的质量标准。在软件开发中,他们引入国际先进的CMM(能力成熟度模型)管理体系,不仅质量和进度得到有效保证,也实现了软件开发与硬件开发同步,有效缩短了总体工程进度。

  “天河一号”的研制,集中了该院200多名科研人员。学院党委和总师组在工程组织中,坚持全院一盘棋,实施一体化人力资源管理,统一调配人才资源,并建立行政、技术、质量三条指挥线,充分发挥团队的整体作战优势,为自主创新提供了有力的组织保证。

  在课题攻关中,科研人员以“胸怀祖国、团结协作、志在高峰、奋勇拼搏”的“银河精神”为攻坚克难的不竭动力,密切协同,集智攻关,追求卓越,勇攀高峰,用“天河一号”千万亿次超级计算机系统的成功,续写了“银河”巨型机事业新的辉煌。

  (湖南日报 通讯员 陈明 本报记者 刘文韬 报道)

稿源:湖南日报 作者:陈明 刘文韬

    新浪声明:此消息系转载自新浪合作媒体,新浪网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。
【 手机看新闻 】 【 新浪财经吧 】
Powered By Google

新浪简介About Sina广告服务联系我们招聘信息网站律师SINA English会员注册产品答疑┊Copyright © 1996-2009 SINA Corporation, All Rights Reserved

新浪公司 版权所有