打造中国最大的
AI交流社区平台

当超算遇见AI:构建最强算力地基

当超算遇见AI:构建最强算力地基插图

AI和超算——计算机科学浪潮中两朵耀眼的浪花

古往今来,人类文明的发展主要依赖于两种知识获取方式:逻辑演绎和归纳总结。为了让计算机像人类那样获取知识,科学家也采用了两种类似的方法,即符号主义和联结主义。以深度学习为代表的AI技术一路高歌猛进,吹响了联结主义领先的号角。

人类的大脑具有抽象、虚构和创造的能力,而记忆能力和运算速度却无法与计算机相比。计算机无法自主产生知识和智慧,只能通过大量的计算来获得数据背后的统计规律。正是人类“高智”与计算机“高能”的本质差异,让AI技术从诞生之初就走上了一条“小问题、大数据”的发展道路。“小问题”意味着不需要进行大量的问题理解与拆解,“大数据”则能充分发挥计算机存储力与运算力的优势。数据的规模决定了模型能学到的“知识”的范围,参数的数量决定了模型对数据学习的效果上限。而模型训练的计算量则与数据量和参数量正相关。

如果说AI是一座承载机器智能的摩天大楼,那么算法是设计图纸,数据是建筑材料,算力则是地基。从CPU到GPU、TPU,从单机到集群再到超算,AI技术的发展一直推动着算力技术从各个角度突围。

当超算遇见AI:构建最强算力地基插图1

国之重器:超级计算机

说到算力,就必须说到算力的主要承载方式之一——超级计算机。

超级计算机(简称“超算”),是指能够执行一般个人电脑无法处理的大量资料与高速运算的电脑。超级计算机具有很强的计算和处理数据的能力,主要特点表现为高速度和大容量。新一代超级计算机E级超算已实现一秒钟内百亿亿次的运算,其工作1小时相当于全球80亿人上万年的计算工作。这样大的算力,让超级计算机的应用涉及国防、医疗、高能物理、工程设计、地震预测、气象预报、航天技术、国家高科技领域和尖端技术研究等方方面面。

俗话说,天有不测风云,如今随着天气预报技术的发展,我们不只可以“测”风云,更是“测”得越来越精确。“天气预报”和“超级计算机”看起来是毫不相关的两个名词,其实超级计算机在天气预报中发挥着至关重要的作用。1950年,美国人恰尼、冯·诺依曼首次用电子计算机制作以大气动力学为基础的数值天气预报,从此数值天气预报逐步成为天气预报的主要方法。70多年来,数值天气预报已经从一个简单的正解方程发展到世界上最复杂的软件项目之一,随着天气预报的发展,精度提高,对算力的需求也在不断增加,超级计算机成为“强助攻”。

超级计算机体现着一国在全球信息技术竞争中的强国地位,是支撑综合国力提升的国之重器。1976年,美国克雷公司推出了世界上首台超级计算机,中长期天气预报、航空航天、核爆模拟、石油地震勘探等重大创新和产业领域利用超级计算机不断取得突破。而当时,国际上对我国展开了技术封锁。1976年底,我国为了勘探石油和矿物,不惜花高价从美国购买了两台Cyber172型超级计算机,然而这款超级计算机却被美方牢牢控制,关在一间玻璃房中,并实施24小时的严格监控。每次中国科技人员使用前,须有美国人批准同意,操作完成后,美方会马上封锁玻璃房,操作日志还要定期上交给美国政府审查。我国后续又从日本购入3台日立M系列超级计算机用于气象预报工作,可依旧面临着与美方相似的值班人员和监控日志审核制度。

面对其他国家的技术封锁,我国下定决心实现超级计算机的自主研发。1978年,我国启动巨型计算机研制工程,时任国防科技大学计算机研究所所长的慈云桂带领团队到长沙展开研究工作,当时已满60岁的他立下军令状:“就是豁出我这条老命,也一定要把我们自己的巨型机搞出来!”五年后,中国第一台超级计算机“银河一号”横空出世,使中国成为继美国、日本之后第三个能独立设计和研制超级计算机的国家。

此后,中国超级计算机的发展如火如荼。2010年,“天河一号”位列全球超级计算机TOP500排行榜榜首,这是我国超级计算机首次登顶。2013年,“天河二号”再次登顶TOP500排行榜。到2015年,“天河二号”实现了榜单历史上最长的六连冠。同年,美国决定禁止向我国4家国家超级计算中心出售高端芯片,这一决定使“天河二号”升级受阻。2016年,国家超级计算无锡中心运营的“神威·太湖之光”超级计算机系统登顶榜单之首,成为世界上首台运算速度超过每秒十亿亿次的超级计算机。中国超算完成了从无到有、从落后到领先的转变。

2022年,第60届全球超级计算机TOP500排行榜中,中国超级计算机有162台进入榜单,占比32.4%。第二名的美国为127台,占比25.4%。中国超级计算机数量虽然超过了美国,但在综合算力上与美国及其他国家依然有一定的差距。中国的“神威·太湖之光”排名第七,距离排名第一的全球首款E级超级计算机—美国的Frontier超级计算机,在算力上尚有10倍左右的差距。

超算给AI带来了什么?

超算和AI原本是各自发展的两个技术领域,然而,2012年深度学习出现导致人工智能对算力的需求迅速攀升,呈指数式增长的趋势,为日后两者的融合埋下了伏笔。

2017年,Transformer模型的问世将大模型的参数量级拉升到了亿级以上,并在随后的几年中节节攀升,达到了十万亿量级。增加参数无疑会提高算力要求,庞大的算力需求意味着巨大的算力成本,OpenAI用于GPT-3的超级计算机包含285000个CPU内核、10000个GPU,训练1750亿参数一次要花费1200万美元。大模型不仅可以直接作为某个特定问题的结果,还能作为底座通过简单的微调来解决更多的下游任务,极大地提升了模型和数据的复用性,不失为从专用人工智能构建通用人工智能的一条路径。正因如此,AI大模型面临的计算任务日趋复杂和多样化,急需高性能的硬件系统提供算力支撑。

当超算遇见AI:构建最强算力地基插图2

目前,算力资源已经成为人工智能研究的壁垒,随着人工智能的发展,拥有丰富算力资源的机构有可能形成系统性的技术垄断。尽管算法优化可以在一定程度上降低对算力的需求,但并不能从根本上解决此问题。当计算资源扩展到一定程度,计算单元之间的协同、调度、通信都是棘手的问题,更别说硬件的管理、容灾等事务都需要更专业的操作规范。

超级计算机并非是目前AI在算力上的主流选择,但考虑到目前欧美对我国的种种技术封锁,它的出现恰好满足了AI模型对算力基础设施日益增长的需求。超算能够高效发挥算力基础设施潜力,让算法工程师只需专注于AI模型架构的设计。

超级计算机怎样为AI提供算力支撑呢?实现超级计算机的根本基础在于处理器的性能和数量,超级计算机通常采用几万甚至上百万个以上的处理器进行并行计算。也许有人要问:我将成千上万个普通电脑的处理器连起来就是超级计算机了吗?答案是远远不够。

超级计算机并不是简单地堆砌硬件就能够实现高性能,还需要复杂的网络、软件等。芯片之间如何互联?芯片上的各个计算核心如何交互?编写的代码又如何转换成机器能够识别运行的语言?怎样将应用任务合理地分配在各个处理器核心上?这一系列的问题都对应着不同的研究内容,包括互联系统、存储系统、计算系统、并行操作系统、应用支持系统等等。在完成这一系列适配的基础软件栈之后,才能充分发挥整套系统的性能。

我国超级计算机的未来发展方向如何呢?关键词是E级超算、AI、自主可控。在世界上最快超级计算机的争夺战中,E级超级计算机是各国新一代超算角逐的焦点,这些国家不仅包括老牌的超算国家美国、日本,还包括新兴的超算国家和组织,其中就包括中国和欧盟。

面对蓬勃发展的大数据、AI技术,超算另一个重要的发展方向就是与AI发展结合的智能超算。传统超算主要是计算密集型的超算系统,主要用于计算量大、数据量小的大规模浮点型运算,面对大数据、AI的海量非结构化数据的场景有一定的局限性。因此,超算系统需要从计算密集型向数据密集型转变,将传统超算、AI算法、大数据三者结合,实现具备面向海量数据的高性能分析能力的智能超算。

当超算遇见AI:构建最强算力地基插图3

我国超算还有一个重要的方向是研制全国产、自主可控的超算系统和软件栈。前文提到的“神威·太湖之光”正是使用国产芯片冲破了美国芯片制裁的“围剿”,这是硬件层面的自主可控,软件应用层面同样需要自主研发。目前,我国在超算应用比较多的制造业和基础科研等关键领域,很多商业应用软件都被国外垄断,研发自主可控的超算软件是亟待解决的问题。目前,我国已有一些科研单位在AI和超算结合的方向上积极地探索,如笔者所在的之江实验室正在研制重大科学装置——智能计算数字反应堆,其算力底座就包括AI与超算相融合的国产智能超算。

AI和超算作为机器智能与算力的代表性技术,是计算机科学浪潮中两朵耀眼的浪花,二者的融合交汇必将带来巨大的能量,有利于共同打造智能超算的国之重器。

欢迎免费使用GPT对话,感受ChatGPT的魅力!AI爱好者 – 最具实力的中文AI交流社区平台 (aiahz.com)

长按扫描二维码进群领资源

当超算遇见AI:构建最强算力地基插图4
赞(0) 打赏
未经允许不得转载:AI爱好者 » 当超算遇见AI:构建最强算力地基

评论 抢沙发

欢迎来到AI爱好者

我们旨在打造一个最具实力的中文AI交流社区平台,致力于为所有AI爱好者,创业者和使用者提供优质服务. 我们的宗旨是为广大用户提供免费解决方案,您可以通过问答形式提出与AI相关的任何问题.

AI社区AI工具

安全服务战略合作伙伴:麒麟盾 SCDN

觉得文章有用就打赏一下文章作者

非常感谢你的打赏,我们将继续提供更多优质内容,让我们一起创建更加美好的网络世界!

微信扫一扫打赏

登录

找回密码

注册