作为微软持续承诺提供机密云的一部分——硬件和软件可以让数据所有者控制他们的数据如何共享和使用——有一个与 Nvidia 相关的新公告。
事实上,微软已经在一篇博客文章中分享了它希望如何使用 Nvidia 的 GPU 为下一代 AI 提供动力的计划和建议。该公告的技术细节非常详细,但归根结底是扩展机密计算服务以包括对 Nvidia GPU 的支持。
目前,这些服务都仅限于 CPU,这可能具有挑战性,因为它们对性能要求很高,尤其是对于 AI 工作负载。在这种情况下通常使用可信执行环境(TEE 技术),其愿景是将这种信任边界扩展到 GPU,允许在 CPU TEE 中运行的代码安全地将计算和数据卸载到 GPU。
微软的目标是在 NVIDIA A100 Tensor Core GPU 中使用名为安培保护内存 (APM) 的新功能来实现这一目标。它将使用这些功能扩展 GPU,以保护 GPU 免受攻击。
一种新模式,其中 GPU 上的所有敏感状态(包括 GPU 内存)与主机隔离
GPU 芯片上的硬件信任根,可以生成可验证的证明,捕获 GPU 的所有安全敏感状态,包括所有固件和微码
扩展 GPU 驱动程序以验证 GPU 证明,建立与 GPU 的安全通信通道,并透明地加密 CPU 和 GPU 之间的所有通信
通过 NVLink 透明加密所有 GPU-GPU 通信的硬件支持
客户操作系统和管理程序支持将 GPU 安全地附加到 CPU TEE,即使 CPU TEE 的内容已加密
此技术现在与 Azure 机密 GPU VM 一起提供私人预览版。这些 VM 是与 NVIDIA、Azure 和 Microsoft Research 合作设计的,具有多达四个 A100 GPU,具有 80 GB 的 HBM 和 APM 技术。展望未来,微软还希望与英伟达合作开发其 Hopper 技术,据称该技术可以“保护正在使用的数据和 AI 模型的机密性和完整性”。