为下一个复杂的AI系统提供动力


下载

将有价值的资源直接发送到你的收件箱-每月发送一次

订阅

我们重视您的隐私


简介

人工智能(AI)结合了几种解决问题的方法,如数学、计算统计学、机器学习和预测分析。人工智能系统模仿人类大脑学习和解决问题的能力。他们通过基于计算机的“神经”网络来完成这一任务,这些网络由并行处理器组成,运行复杂的学习和执行软件算法。今天的人工智能正在彻底改变计算架构,以复制模拟人脑的神经网络。虽然普通模型可以在具有传统中央处理器(cpu)的服务器上进行训练或开发,但大多数神经网络需要定制的内置硬件进行训练。

图形处理单元(gpu)和张量处理单元(tpu)是常用的加速器,可以加速神经网络的训练。gpu和tpu可以处理重复和密集的计算,但它们非常耗电。例如,早期的人工智能市场霸主NVIDIA DGX-1 GPU超级计算机包含8个特斯拉P100 GPU,每个GPU能够处理21.2万亿次浮点运算。这需要3200W的系统总功率。目前的DGX-2超级计算机包含16个特斯拉V100图形处理器,每个图形处理器能够进行2千兆次浮点运算,这需要10kW的系统总功率。毫无疑问,人工智能市场将迅速增长,以适应这些不断增长的电力需求。

电源设计挑战

人工智能电力系统设计师面临的挑战是多方面的。提供千瓦级的电力是第一个挑战,效率是绝对关键的。要知道,这些计算系统是满负荷运行的复杂负载。随着活动的减少,对能量的需求也会降低。系统必须在整个电力需求期间保持尽可能高效。浪费的每瓦能量都以热量的形式消散,并转化为数据中心增加的空调需求。这增加了运营成本,以及数据中心的碳足迹。

房地产的成本也在上升。现代数据中心包含数百或数千个处理单元,大小很重要。单个单元的尺寸减小多次重复,允许在同一空间中使用更多的设备和更集中的处理能力。然而,这种较小的尺寸要求迅速增加了功率密度,并减少了可用于散热的表面积。这使得热管理成为为下一代复杂的cpu、gpu和tpu设计电源的重大挑战之一。

此外,由于系统复杂性的增加和设计周期的缩短,设计资源已被拉长,资源主要被分配到开发系统的关键知识产权上。这通常意味着与功率方案相关的电路被忽略,直到开发周期的后期。在解决上述挑战的时间很少、电源设计资源可能有限的情况下,理想的整体电源解决方案将具有空间意识,但高效、可扩展、灵活,并且需要最少的设计工作。

数字控制与基于模拟的解决方案

基于模拟的解决方案不再是解决人工智能市场快速增长的电力需求的可行方法。随着电源系统变得越来越智能并集成到整体解决方案中,电源解决方案与主CPU/GPU/TPU之间的通信是一种设计需求。在为AI市场设计高端电源解决方案时,数字控制解决方案是非常有益的。

理想的控制解决方案与多种产品(例如Intel, AMD, PMBus)兼容,并且由于可扩展和灵活的配置而易于使用。包括MPS在内的公司提供这些理想的先进控制器(见表1).它们提供广泛而准确的系统控制,同时提供详细而精确的监控。电压、电流、频率、故障可配置范围宽。这些值可以实时访问,以促进对解决方案性能的全面可见性。经过授权的工程师可以通过预测分析优化运行时间,并在需要维修时获得更多可用数据,从而最大限度地减少停机时间。

来自MPS的高级控制器解决方案 其他模拟控制器解决方案 其他数字控制器解决方案
通信协议
  • PMBUS带或不带AVS
  • SVID
  • SVI2
  • 2C
  • PWM-VID
  • SVID
  • SVI2
  • 2C
  • PWM-VID
  • PMBUS带或不带AVS
  • SVID
  • SVI2
  • 2C
最大相位配置
  • 双轨或单轨,具有灵活的相位分配
  • 10相或更少
  • 双轨或单轨
  • 7相或以下
  • 双轨或单轨,具有灵活的相位分配
  • 8相或更少
QFN 5mmx5mm或更小 QFN 7mmx7mm或更小 QFN 7mmx7mm或更小


表1:高级控制器vs.基于模拟和数字的控制解决方案

权力阶段:整合是关键

显然,如果没有幂级数,就没有幂级数解,而幂级数通常会选择一个离散解。离散解决方案的构建模块包括一个驱动IC和一对外部mosfet,这创建了一个三芯片解决方案。另一种方法是将多芯片驱动- mosfet (DrMOS)协同封装到一个IC解决方案中。如前所述,不断缩小的系统电路板面积使得三芯片解决方案不太理想,因为它增加了有限的电路板面积上的组件数量。协同封装的多芯片解决方案更小,需要的组件更少;然而,封装内部的寄生电感仍然很高,导致效率损失,这对于人工智能等大功率应用来说并不理想。188比分直播吧

图1:实现功率阶段的常规方法

与传统的分立和多芯片解决方案不同,MPS实现了单片功率级解决方案。该功率级具有低静态电流,同步降压门驱动器,以及一对高侧和低侧mosfet在单个芯片上。由于所有关键元件集成在一个包中,驱动器/MOSFET易于控制,并能够最大限度地减少开关节点上的振铃。此外,封装和板级之间的寄生电感大大降低。这种设计可以在较低的输出电压下实现更高的效率,这是尖端CPU/GPU/TPU设计所要求的。

单片电源级需要最少数量的外部组件,这简化了原理图和PCB布局。底座设计分两步完成:

  1. 选择适当数量的输入和输出电容器,以满足电压和电流纹波的要求。
  2. 选择一个电感来满足总负载电流需求。

图2:常规方案与高级方案的对比

该设备的典型功率级可以在各种温度的整个负载范围内实现出色的电流检测精度(±2%),并以高达3MHz的开关频率工作(见图2).可配置故障保护,如过流保护(OCP)、相位故障检测和IC温度报告,在空间敏感系统中为设计人员提供了一个小而强大的解决方案,而不会影响效率或瞬态响应。

结论

今天的人工智能系统是通过几个高性能计算机系统实现的,这些系统在许多方面都对电源设计师提出了挑战。传统的数据中心设计正在迅速从通用的cpu解决方案向cpu、gpu和tpu的组合迁移,这对电源设计方案提出了新的和更严格的要求。数字控制器及其功率级解决方案带来了灵活性和适应性,以及精确控制、遥测和保护功能。这使得电源设计人员能够创建具有高效率和功率密度的最先进的电源解决方案,以满足快速扩张的人工智能市场当前和未来的高功率需求。

_________________________

你觉得这个有趣吗?获得有价值的资源直接到您的收件箱-发送每月一次!

技术论坛