红帽公司近期正式推出了红帽 AI 推理服务器(Red Hat AI Inference Server),这款服务器旨在为混合云环境提供更加高效和经济的 AI 推理服务。通过采用先进的 vLLM 技术,并结合 Neural Magic 的创新能力,红帽希望为用户带来更快的响应速度和更优越的性能。
红帽 AI 推理服务器是一款专为高性能设计的开放推理解决方案,配备了一系列先进的模型压缩与优化工具。它的设计理念是将 vLLM 的前沿创新与红帽的企业级能力相结合,以便为用户提供灵活的部署选项。用户可以选择将其作为独立的容器化产品使用,或者将其与红帽企业 Linux(RHEL AI)和红帽 OpenShift AI 集成。
在各种部署环境中,红帽 AI 推理服务器能够向用户提供经过加固的 vLLM 发行版。其主要功能包括智能 LLM 压缩工具,可以显著缩减基础 AI 模型与微调 AI 模型的大小,同时在保持模型准确性的前提下,尽量降低计算资源的消耗。此外,红帽还提供了一个优化的模型存储库,该存储库托管在红帽 AI 组织的 Hugging Face 中,用户可以即时访问经过验证的 AI 模型。这些模型经过优化后,能够在推理部署中提升效率,效率提升可达到2到4倍,并且不会影响模型的准确性。
红帽为用户提供了强大的企业支持,这种支持基于公司多年来在将社区项目推向生产环境方面的丰富经验。与此同时,红帽 AI 推理服务器还支持在非红帽 Linux 和 Kubernetes 平台上的灵活部署,帮助用户在选择部署环境时获得更大的选择空间。
红帽 AI 业务部门副总裁 Joe Fernandes 表示:“推理是生成式 AI 的核心价值所在,它使得模型在用户互动时能够快速给出准确的回复。我们的目标是以高效和经济的方式满足大规模的推理需求。” 红帽 AI 推理服务器的推出,将为用户提供一个通用的推理层,支持在各种环境中运行不同模型的加速。
划重点:
🚀 红帽 AI 推理服务器结合 vLLM 和 Neural Magic 技术,为混合云环境提供高效推理服务。
📉 具备智能 LLM 压缩工具和优化模型存储库,能有效提升推理效率2-4倍。
🛠️ 提供企业级支持与灵活部署选项,适应多种操作系统与平台。
评论 (0)