在 Amazon SageMaker HyperPod 上运行推理的最佳实践
为生成式 AI 推理部署和扩展基础模型,对许多组织来说仍然充满挑战。团队常常需要应对复杂的基础设施搭建、会导致过度配置或性能瓶颈的不可预测流量模式,以及高效管理 GPU 资源所带来的运维负担。这些痛点会拖慢产品上市时间,导致模型性能不理想,并推高成本,使 AI 项目难以在大规模场景下持续推进。
本文将介绍 Amazon SageMaker HyperPod 如何通过面向推理工作负载的完整解决方案来应对这些挑战。文章将带你了解该平台在动态扩展、简化部署和智能资源管理方面的关键能力。读完本文后,你将了解如何利用 HyperPod 的自动化基础设施、成本优化功能和性能增强能力,在加快生成式 AI 从概念走向生产的同时,将总拥有成本最多降低 40%。
集群创建:一键部署
要创建一个由 Amazon Elastic Kubernetes Service(Amazon EKS)编排的 HyperPod 集群,请前往 Amazon SageMaker AI 控制台中的 SageMaker HyperPod Clusters 页面。
选择 Create HyperPod cluster,然后选择 Orchestrated by Amazon EKS 选项。
你可以选择 quick setup 或 custom setup。quick setup 会创建默认资源,而 custom setup 则允许你接入现有资源,或根据具体需求自定义配置。
下面列出的是 Kubernetes 控制器和附加组件。这些控制器和附加组件可以启用,也可以禁用。
下图展示了使用 Amazon EKS 编排器控制平面的 SageMaker HyperPod 高层架构。
部署选项
Amazon SageMaker HyperPod 现在提供了一个完整的推理平台,将 Kubernetes 的灵活性与 AWS 托管服务结合起来。你可以在模型整个生命周期内,以生产级可靠性部署、扩展并优化机器学习模型。该平台提供灵活的部署接口、高级自动扩缩能力和全面的监控功能。借助 Inference deployment operator,你无需编写代码,就可以从 S3 buckets、FSx for Lustre 和 JumpStart 部署模型。
使用 Karpenter 的自动扩缩
Amazon SageMaker HyperPod 提供了一种自动扩缩架构,将用于 Pod 级扩缩的 KEDA(Kubernetes Event-Driven Autoscaling)与用于节点级扩缩的 Karpenter 结合起来。这种双层方式可依据实时需求,构建可从零扩展到生产负载的动态且具成本效率的基础设施。
使用 KEDA 和 Karpenter 进一步展开自动扩缩。
