在 Amazon SageMaker HyperPod 上运行推理的最佳实践

为生成式 AI 推理部署和扩展基础模型，对许多组织来说仍然充满挑战。团队常常需要应对复杂的基础设施搭建、会导致过度配置或性能瓶颈的不可预测流量模式，以及高效管理 GPU 资源所带来的运维负担。这些痛点会拖慢产品上市时间，导致模型性能不理想，并推高成本，使 AI 项目难以在大规模场景下持续推进。

本文将介绍 Amazon SageMaker HyperPod 如何通过面向推理工作负载的完整解决方案来应对这些挑战。文章将带你了解该平台在动态扩展、简化部署和智能资源管理方面的关键能力。读完本文后，你将了解如何利用 HyperPod 的自动化基础设施、成本优化功能和性能增强能力，在加快生成式 AI 从概念走向生产的同时，将总拥有成本最多降低 40%。

集群创建：一键部署

要创建一个由 Amazon Elastic Kubernetes Service（Amazon EKS）编排的 HyperPod 集群，请前往 Amazon SageMaker AI 控制台中的 SageMaker HyperPod Clusters 页面。

选择 Create HyperPod cluster，然后选择 Orchestrated by Amazon EKS 选项。

你可以选择 quick setup 或 custom setup。quick setup 会创建默认资源，而 custom setup 则允许你接入现有资源，或根据具体需求自定义配置。

下面列出的是 Kubernetes 控制器和附加组件。这些控制器和附加组件可以启用，也可以禁用。

下图展示了使用 Amazon EKS 编排器控制平面的 SageMaker HyperPod 高层架构。

部署选项

Amazon SageMaker HyperPod 现在提供了一个完整的推理平台，将 Kubernetes 的灵活性与 AWS 托管服务结合起来。你可以在模型整个生命周期内，以生产级可靠性部署、扩展并优化机器学习模型。该平台提供灵活的部署接口、高级自动扩缩能力和全面的监控功能。借助 Inference deployment operator，你无需编写代码，就可以从 S3 buckets、FSx for Lustre 和 JumpStart 部署模型。

使用 Karpenter 的自动扩缩

Amazon SageMaker HyperPod 提供了一种自动扩缩架构，将用于 Pod 级扩缩的 KEDA（Kubernetes Event-Driven Autoscaling）与用于节点级扩缩的 Karpenter 结合起来。这种双层方式可依据实时需求，构建可从零扩展到生产负载的动态且具成本效率的基础设施。

使用 KEDA 和 Karpenter 进一步展开自动扩缩。

在 Amazon SageMaker HyperPod 上运行推理的最佳实践

在 Amazon SageMaker HyperPod 上运行推理的最佳实践

集群创建：一键部署

部署选项

使用 Karpenter 的自动扩缩

Join the discussion