GPUStack介绍-马育民老师

# 介绍

GPUStack是一个专为运行AI模型设计的开源GPU集群管理器。以下是对它的详细介绍：

### 核心特点
- **广泛的GPU兼容性**：支持NVIDIA、AMD、Apple Silicon、华为昇腾等多种主流GPU/NPU，兼容CUDA、ROCm、Metal等不同架构，可在Linux、macOS、Windows系统上使用。
- **丰富的模型支持**：涵盖大语言模型（LLM）、视觉语言模型（VLM）、扩散模型、嵌入模型、重排序模型、音频模型等，如Qwen、LLaMA、Stable Diffusion、Whisper等。
- **灵活的推理后端**：可集成vLLM、Ascend MindIE、llama - box、vox - box等多种推理后端，还支持多版本后端并发运行。
- **分布式推理能力**：支持单机多卡和多机多卡推理，包括跨厂商和运行环境的异构GPU，也支持CPU推理作为补充。
- **智能调度与管理**：具备自动调度功能，可根据资源可用性动态分配模型，还支持多种手动调度策略。同时提供自动故障恢复、多实例冗余和负载均衡等功能，确保模型稳定运行。
- **其他特性**：是轻量级Python包，依赖少、开销低。提供与OpenAI兼容的API，简化用户和API密钥管理，支持实时GPU监控和Token、速率指标跟踪。

### 主要功能
- **模型Catalog**：提供经过验证的模型集合，自动选择最优下载源并预设运行参数，简化模型部署流程。
- **图生图功能**：为图像模型新增图生图（图像编辑）功能，提供对应的API和Playground UI。
- **多平台支持**：将VLM多模态模型支持和Tool Calling能力扩展到Windows和macOS平台，实现跨平台一致的模型体验。

### 应用场景
- **RAG系统部署**：支持部署RAG系统所需的Chat对话模型、Embedding文本嵌入模型和Rerank重排序模型。
- **AI Agent系统**：支持私有化部署AI Agent系统所需的各种关键模型，包括LLM、VLM、文生图模型、语音模型等。
- **大模型推理服务**：提供统一认证和高可用负载均衡的OpenAI兼容API，可无缝接入Dify、RAGFlow等上层应用框架。

### 安装方式
- **Linux或macOS**：在终端运行命令`curl -sfL https://get.gpustack.ai | sh -`。
- **Windows**：以管理员身份运行Powershell，执行命令`Invoke - Expression (Invoke - WebRequest - Uri "https://get.gpustack.ai" - UseBasicParsing).Content`。

原文出处：http://malaoshi.top/show_1GW23aTajJWy.html