Aurora超级计算机与阿贡实验室合作，英特尔打造规模巨大的Aurora genAI模型

2023年05月25日 14:09

听声音

眼见ChatGPT持续引起轰动，持续几个月以来，微软、谷歌、Meta等科技巨头相继加入竞争，现在英特尔也正式宣布加入"战局"。

在上周末的德国汉堡国际超级计算大会(ISC)高性能会议上，英特尔不仅展示了其在高性能计算(HPC)和人工智能(AI)工作负载方面的领先性能，还宣布了一项令人意外的计划：与阿贡国家实验室合作，使用Aurora超级计算机开发名为Aurora genAI的生成式AI模型，其参数量将达到1万亿!

值得一提的是，ChatGPT的参数规模仅为1750亿，也就是说Aurora genAI模型的规模至少是它的5倍。

Aurora超级计算机与阿贡实验室合作，英特尔打造规模巨大的Aurora genAI模型【1】

据了解，英特尔Aurora genAI模型将基于两个框架：NVIDIA的Megatron和微软的DeepSpeed。

- Megatron：这个架构用于分布式训练大规模语言模型，专门对Transformer进行了优化，不仅支持传统的数据并行分布式训练，还支持模型并行。

- DeepSpeed：它专注于优化大型深度学习模型的训练，通过提高规模、速度、成本和可用性，使得训练1000亿参数模型成为可能，极大地推动了大型模型的训练。

除了这两个框架，Aurora genAI模型还将借助Aurora超级计算机提供算力。这台英特尔为阿贡国家实验室设计的超级计算机经历了多次推迟，如今终于面世。

据目前公开的资料显示，Aurora超级计算机由英特尔Xeon CPU Max和Xeon GPU Max系列芯片提供支持，共有10624个节点，拥有63744个Ponte Vecchio GPU、21248个Sapphire Rapids至强CPU、1024个分布式异步对象存储(DAOS)存储节点以及10.9 PB的DDR5傲腾持久内存。

Aurora超级计算机与阿贡实验室合作，英特尔打造规模巨大的Aurora genAI模型

此外，英特尔还透露了Aurora超级计算机的早期性能结果：“Aurora超算在科学和工程工作负载上具有领先性能，比AMD MI250 GPU的性能高出2倍，在QMCPACK量子力学应用上比H100提高了20%，并且具有接近线性扩展性，可以扩展到数百个节点。”

Aurora genAI是以科学为重点的生成式AI模型。在Aurora超级计算机的强大计算能力支持下，

该模型的规模将会很大。据英特尔官方介绍，阿贡国家实验室正在与全球合作伙伴共同开展Aurora genAI模型的研发。

阿贡副实验室主任Rick Stevens表示：“该项目旨在充分利用Aurora超级计算机的潜力，以产生一种资源，可用于能源部实验室的后续科学研究，并与其他机构合作。”

总体而言，Aurora genAI是一个以科学为重点的生成式AI模型，将在通用文本、代码、科学文本以及生物学、化学、材料科学、物理学、医学等科学数据上进行训练。

由此产生的AI模型将具有多达1万亿个参数，包括从分子和材料设计到数百万个来源的综合知识，可应用于各种科学领域，如系统生物学、癌症研究、气候科学、宇宙学研究、高分子化学与材料等。除了科学之外，Aurora genAI模型还可能应用于金融建模、自然语言处理、机器翻译、图像识别和语音识别等其他领域。

此外，英特尔计划在2024年开发和完成Aurora genAI模型，对于这一消息，外界引起了广泛关注。英特尔参与大规模模型领域，一开始就以1万亿参数为起点，令人对GPT-4等竞争产品的未来发展充满期待。

以下是一些网友对此消息的评论：

- "万亿参数可能是一个特殊的极限，但也有人怀疑这只是一个需要关注的巨大数字。毫无疑问，如果该模型类似于GPT-4，这将增加一个数据点。但随着各大公司纷纷宣布消息，我想知道我们是否会在六月达到巅峰。"

- "人们正在构建基于H100的新系统，而且已经有了更好的AI GPU。如果这种情况持续下去，NVIDIA可能需要尽快宣布新卡以保持领先地位。"

- "我猜GPT-4在许多基准测试中很快就不会继续保持SOTA(目前在特定任务中表现最好的方法或模型)了，或许将来它也将在世界上最快的超级计算机上进行训练。作为参考，OpenAI的超级计算机有约10000个GPU，而Aurora有63744个GPU。"

Aurora超级计算机与阿贡实验室合作，英特尔打造规模巨大的Aurora genAI模型

相关阅读

相关应用

Qalculate!

热门新闻排行