昆仑山

首页 » 问答 » 简介 » 矩阵计算与AI革命可将计算性能提高150
TUhjnbcbe - 2024/12/25 17:53:00

本文翻译自Wikibon矩阵计算与AI革命系列研究文章。

如今异构计算(HeterogeneousCompute,HC)已经部署在消费类移动设备中,与传统架构相比可以将矩阵工作负载的性能提高50倍。同时,这也将性价比和功耗节省提高了倍以上。企业HC可能会使用与消费HC相同的技术。因此,异构计算的改进将大幅提升实时矩阵工作负载的价值,尤其是那些AI推理工作负载的子集。

更具战略意义的前提是,虽然异构计算可以将处理数据的成本降低五十倍,但存储和移动数据的成本将高出50倍。如果矩阵工作负载使用传统的数据中心流程,非处理器组件的成本将占主导地位。但是,通过使用数据主导的运营架构(Data-ledOperationalArchitecture,DLOA),可以使存储和网络成本与计算成本保持一致。这两个基本体系结构改变的结果是,允许实时矩阵工作负载在与传统企业计算相同的成本范围内,处理两个数量级以上的数据。用异构计算运行矩阵工作负载,这是数据导向型企业的重要技术。

Wikibon的研究员表示,上述前提与假设的观点非常激进。如果其他研究人员发现错误,遗漏或不合适的数字,Wikibon也愿意更新研究结果。注意:AI训练工作负载不是矩阵工作负载,因为它不是实时的。训练工作负载通常是分批的,这将显著提高GPU吞吐量。目前,训练在AI计算能力中占比很高,但在这十年中,推理将更加重要。

执行摘要

对于矩阵工作负载,异构计算的性能优于传统的x86

苹果和谷歌首先在消费类应用中采用了神经网络技术。年,Apple的iPhoneX内置了早期的异构计算架构,该架构具有集成的GPU、处理器和神经网络单元(NPU)。这款智能手机让移动用户可以使用软件而不是硬件来拍摄更好的照片,并通过面部识别技术改善隐私性。Google在其Pixel智能手机中随附了一个独立的NPU,以增强摄影和音频功能,还提供了依靠大型水冷TPU(TensorProcessingUnit)的云服务来支撑在手机上发展机器学习(ML)。

Wikibon将“异构计算体系结构”定义为CPU、加速器、NPU、ASIC、GPU和FPGA的组合。它们以非常低的延迟和高带宽彼此直接互连,这比DRAM的运行速度快得多。在本研究中,代表性的异构计算系统是基于Arm的iPhone11。传统体系结构的代表是基于最新的Inteli7-G7技术的x86PC系统。下面的图1总结了本研究的性能和性价比部分的结论。

图1:对比传统和矩阵工作负载下异构计算与传统x86的性能和性价比

来源:Wikibon,年

图1中的y轴是基于Arm的异构计算架构(iPhone11ProMax)和传统x86架构(Inteli7-G7PC)之间的比值。对于传统的工作负载,这两种设备的性能大致相同。

第一组相邻的列表示性能比率,以Y轴显示。蓝色的列显示了传统的工作负载性能,这表明异构计算的性能比x86略慢(0.95:1)。红色的列则显示了在异构计算体系结构上运行的矩阵工作负载性能是x86的50倍。

第二组相邻的列展示了性价比比率,以Y轴显示。蓝柱表明传统工作负载下HC性价比是x86的3.6倍。红柱展示了矩阵工作负载下HC的性价比高出x86超过倍。

数据主导的运营架构(DLOA)

支持矩阵工作负载的异构计算系统将需要截然不同的部署策略。传统的IT组织思维方式是降低计算成本。对于矩阵工作负载,其思路是需要

1
查看完整版本: 矩阵计算与AI革命可将计算性能提高150