关于天河加速器的一些常见疑问与解答

“天河加速器”通常指的是在中国的“天河”系列超级计算机中所使用的、用于提升计算性能的专用处理单元或计算卡。它不是一个独立存在的消费级产品,而是超级计算机庞大复杂系统中的关键组成部分。

天河加速器 是什么?

当提到“天河加速器”时,我们通常指的是在天河超级计算机系统中,与通用中央处理器(CPU)协同工作,专门负责处理大量并行计算任务的硬件单元。

它是一个什么样的硬件?

它是一个高度专业化的计算芯片或计算卡。不同代次的天河超级计算机可能采用不同类型的加速器:

  • 早期型号(如天河一号)可能使用了当时的通用图形处理器(GPU)以及自行研发的协处理器。
  • 后续型号(如天河二号使用的Matrix-2000,天河三号原型机及最终系统可能使用的FT-XXXX系列或更先进的国产申威或自主架构加速器)则倾向于使用国产自主研发的众核处理器作为加速器。

这些加速器拥有大量的计算核心,设计目标是高效处理那些可以分解成无数小任务并同时执行的计算负载。

它在天河系统中的角色是什么?

天河超级计算机采用的是CPU与加速器协同工作的异构计算架构。在这个架构中:

CPU主要负责控制任务流程、处理串行计算部分以及管理系统资源。
加速器则承担了绝大多数需要密集计算的并行任务,例如科学模拟、大数据分析、人工智能训练等。

加速器是天河系统达到其惊人计算速度(如拍浮点/秒或百亿亿次浮点/秒)的关键支撑。

它使用了什么技术架构?

如前所述,这取决于具体的天河型号和其发布年份。

  • 早期可能借鉴了GPU的并行计算思想。
  • 现代天河系统,特别是天河二号和天河三号,采用了基于国产自主设计的众核处理器作为加速器。这些处理器拥有数百甚至上千个精简指令集(RISC)核心,专为高性能科学计算和并行处理优化。其架构与通用CPU或商用GPU有显著区别,是为超级计算场景量身定制的。

为什么需要天河加速器?

超级计算的目标是解决传统计算机无法处理的复杂问题。引入加速器是实现这一目标、提升性能和效率的必然选择。

为了极致的计算性能:

传统的CPU虽然功能强大,但在处理大规模并行计算时效率远不如专用的并行处理器。加速器设计伊始就考虑了如何以最快速度同时执行大量相似操作,这使得超级计算机能够实现远超普通计算机的浮点运算能力。

提升能源效率:

相对于同等计算能力的CPU集群,使用加速器通常能以更高的能效比完成计算任务。这意味着消耗更少的电力就能完成更多计算,对于运行成本高昂的超级计算机来说至关重要。

解决复杂问题:

许多前沿的科学、工程和工业问题(例如气候模拟、药物研发、核聚变模拟、宇宙学研究、复杂流体动力学计算、大规模分子动力学模拟以及深度学习模型训练)本质上是高度并行的计算问题。只有依靠加速器提供的强大并行计算能力,才能在合理的时间内获得计算结果。

技术自主与创新:

对于中国而言,自主研发和使用“天河加速器”这样的核心计算部件,是国家高性能计算发展战略的重要一环,有助于提升技术自主能力,避免在关键技术上受制于人。

天河加速器在哪里可以使用?

“天河加速器”并非消费者或普通企业可以直接购买和使用的硬件。

它不是独立出售的组件:

它与天河超级计算机的整体架构紧密集成,包括特定的互连网络、内存系统和软件环境。因此,您不能像购买显卡或CPU那样单独购买“天河加速器”并安装到普通电脑中使用。

主要位于国家超级计算中心:

天河超级计算机部署在中国的国家超级计算中心。用户通常通过申请计算资源的方式,远程登录到这些中心的超级计算机系统上使用包括加速器在内的计算资源。

具体在哪些天河超级计算机中?

  • 天河一号(Tianhe-1A):部署在国家超级计算中心(天津),早期使用了GPU和自主研发的协处理器作为加速器。
  • 天河二号(Tianhe-2):部署在国家超级计算中心(广州),使用了由国防科技大学(NUDT)研发的Matrix-2000众核加速器。
  • 天河三号(Tianhe-3):作为新一代百亿亿次超算,其原型机和最终系统可能部署在国家超级计算中心(天津)或其他中心,使用了更为先进的、完全自主研发的FT-XXXX系列或类似架构的众核处理器作为加速器。

因此,要使用“天河加速器”,您需要成为这些国家超算中心的用户,并获得相应的计算资源分配。

天河加速器的成本是多少?

精确估算单个“天河加速器”芯片或计算卡的成本非常困难,因为它们是大规模定制化生产的部件,且通常不单独对外销售。

单个加速器芯片或模块的价格难以公开获取:

与商用CPU或GPU不同,这些专为超级计算机设计的加速器没有公开的市场价格。其成本通常是作为整个超级计算机系统造价的一部分进行核算。

它是超级计算机总成本的重要组成部分:

在一个超级计算机系统中,计算节点(包含CPU和加速器)以及连接这些节点的网络是成本的大头。加速器因其复杂的设计和制造工艺,无疑占据了相当大的比例。

超级计算机的总造价:

建设一台世界级的超级计算机是一个极其昂贵的工程。例如,天河二号的建设成本据报道超过了20亿元人民币。新一代的百亿亿次超级计算机的造价更是高达数十亿甚至上百亿元人民币。这些巨大的投资包含了处理器(包括加速器)、内存、存储、网络、电力、散热、机房建设以及软件开发等所有方面。

成本考量的是整体效能比:

虽然单看加速器成本可能很高,但在超级计算领域,更重要的指标是“每秒浮点运算次数的成本”或“每瓦特的计算能力”。通过使用加速器,可以显著提升系统的整体性能和效率,从而在一定程度上分摊高昂的硬件成本。

如何使用天河加速器进行计算?

使用天河加速器进行计算并非像在个人电脑上运行程序那样简单。它需要特定的编程方法和工具。

需要特定的编程模型和工具:

由于加速器是为并行计算设计的,程序员需要使用专门的并行编程模型来编写或修改应用程序。这通常包括:

  • 使用OpenMPOpenACC等并行编程标准,这些标准允许程序员通过在代码中添加编译指导语句来指定哪些循环或代码段可以在加速器上并行执行。
  • 使用天河系统提供的特定SDK(软件开发工具包)和库,这些工具包包含了针对天河加速器优化过的编译器、数学库、通信库等。
  • 对于复杂的应用,可能需要直接使用MPI(Message Passing Interface)等消息传递接口来实现不同节点(可能包含多个加速器)之间的数据交换和协同计算。

并行编程的挑战:

将现有的串行程序移植到加速器上运行,需要深入理解程序的计算特性,识别可以并行化的部分,并可能需要重构算法和数据结构。同时,如何在CPU和加速器之间高效地传输数据也是影响性能的关键因素。

利用系统提供的软件栈:

天河超级计算机系统通常提供了完整的软件环境,包括操作系统(通常是基于Linux的定制版本)、编译器套件、并行编程环境、资源管理系统和各种科学计算库。用户需要在登录系统后,使用这些工具来编译和运行他们的并行应用程序。

并非像普通显卡一样即插即用:

与个人电脑上的GPU不同,天河加速器及其配套软件栈是高度定制和集成的。普通用户无法在家中或办公室轻易搭建和使用天河加速器的开发环境。

总而言之,“天河加速器”是天河超级计算机实现世界领先计算能力的基石之一。它是一种高度专业化、集成在大型系统中的国产众核处理器,通过并行计算解决极其复杂的科学与工程问题。使用它需要特定的编程技能和访问国家超级计算中心的权限。


天河加速器

By admin

发表回复