大语言模型 (LLM) 在文本生成、问题解决和遵循说明方面取得了重大进展。随着企业使用 LLM 开发尖端解决方案,对可扩展,安全和高效部署平台的需求变得越来越重要。Kubernetes 已成为其可扩展性、灵活性、可移植性和弹性方面的首选。
在本演示中,我们将演示如何在 Oracle Cloud Infrastructure Kubernetes Engine (OKE) 上部署经过微调的 LLM 推断容器,这是一种托管式 Kubernetes 服务,可简化企业大规模的部署和运营。利用该服务,他们可以在自己的租户中保留定制模型和数据集,而无需依赖第三方推断 API。
我们将使用文本生成推理 (TGI) 作为推理框架来公开 LLM。
注:为免疑义,本网页所用以下术语专指以下含义: