大模型分类-马育民老师

# 介绍

大模型根据不同任务、不同目标、不同训练方式、不同的部署方式、是否开源等，会有不同的分类

# 根据任务、训练方式分类

根据任务分类：

- **LLM 任务**：预测下一个词（续写）
  - 训练目标：文章、小说、代码补全
- **Chat Model 任务**：理解对话、回答问题、服从指令
  - 训练目标：多轮对话、听话、按角色回答

根据训练方式分类：

- LLM：只做**无监督预训练**
- Chat Model：在 LLM 基础上做
  - **SFT 有监督微调**
  - **RLHF 人类偏好对齐**

所以分成两类：

- 你要**续写文章** → LLM 结构最适合
- 你要**聊天、助手、客服** → Chat Model 结构最适合

**LLM大语言模型 和 Chat Model聊天模型 区别，详见 [链接](https://www.malaoshi.top/show_1GW2pd6xyaGM.html "链接")**

# 根据专业知识、训练数据分类

根据专业知识分类：

- 通用模型：什么都懂一点，但**不精**
- 医疗/法律/代码模型：**只精一个领域**

根据训练数据分类：

- 通用：全网文本
- 垂直：专业文献、病历、法律条文、代码库

所以必须分类：做 **医疗问诊**，不可能用通用大模型，必须用**医疗大模型**。

# 根据是否开源分类

因为企业需求不一样：

- 要隐私 → 本地部署 → 开源
- 要方便 → 直接调用 → 闭源API

# 多模态模型

与其他模型不同，该模型不只文字，可以输入：

- 文字
- 图片
- 音频
- 视频

### 模型结构不一样
需要处理 **不同模态的数据**

### 应用场景

实现 **看图回答、OCR、图文理解**，只能用多模态。

# Embedding 嵌入模型

与普通模型不同，该模型根本不负责生成内容、不回答问题

它只做一件事：**把文字 → 向量**

用于：检索、相似度、RAG、推荐

### 应用场景
你做知识库、搜索、匹配，**必须用 Embedding**，生成模型做不了。

# 按交互形态

这是开发中最常接触的分类，对应 LangChain 里的核心模型类型：

| 分类 | 核心特征 | 代表模型 | 典型应用 |
|------|----------|----------|----------|
| **大语言模型（LLM）** | 纯文本输入输出，核心是“文本补全/续写”，无对话角色概念 | GPT-3（text-davinci-003）、LLaMA 1 | 文本生成、摘要、翻译、代码补全 |
| **聊天模型（Chat Model）** | 基于角色（system/user/assistant）的多轮对话交互，专为对话优化 | GPT-3.5/4 Turbo、文心一言、通义千问、GLM-4 | 智能客服、AI 助手、多轮问答 |
| 多模态模型 | 支持文本、图片、音频、视频等多输入输出 | GPT-4V、Claude 3、通义千问多模态、文心4.0多模态 | 看图问答、图文生成、语音交互 |

# 按部署方式

开发选型核心维度

| 分类 | 核心特征 | 优势 | 劣势 |
|------|----------|------|------|
| 闭源商业模型（API 调用） | 厂商托管，通过 API 调用，无需本地部署 | 效果好、维护成本低、更新快 | 付费、数据隐私风险、有调用限制 |
| 开源本地模型 | 可下载权重，本地/私有化部署 | 数据可控、无调用限制、定制化强 | 需硬件资源（GPU）、维护成本高、效果略逊 |
| 混合部署模型 | 核心逻辑本地部署，部分能力调用API | 平衡隐私与效果 | 架构复杂、调试成本高 |

# 按能力定位

按场景细分

| 分类 | 核心特征 | 代表模型 |
|------|----------|----------|
| 通用大模型 | 全场景适配，无明显领域限制 | GPT-4、文心一言、通义千问、GLM-4 |
| 领域大模型 | 针对特定行业优化 | 医疗大模型（讯飞医疗）、法律大模型（北大法宝）、代码大模型（CodeLlama、DeepSeek-Coder） |
| **嵌入模型（Embedding）** | 专注文本向量化，无生成能力 | text-embedding-ada-002、通义嵌入、文心嵌入 |
| 工具调用模型 | 专为调用外部工具/函数优化 | GPT-4 Turbo、Gemini Pro、GLM-4 |

# 按规模/参数

| 分类 | 核心特征 | 说明 |
|------|----------|------|
| 大参数模型 | 参数量≥100B（百亿级） | 效果强，但部署成本高（如 GPT-4、LLaMA 2 70B） |
| 中小参数模型 | 参数量≤10B（十亿级） | 轻量、部署成本低，适合边缘设备（如 Phi-2、Qwen-7B） |

# 开发选型参考逻辑

1. 先定**交互形态**：做对话选 Chat Model，做文本生成可选基础 LLM，做图文交互选多模态；
2. 再定**部署方式**：数据敏感选开源本地模型，追求效率选闭源 API 模型；
3. 最后定**能力定位**：通用场景选通用大模型，垂直领域选领域大模型，做语义检索选嵌入模型。

# 总结

1. 大模型分类可从 **交互形态、部署方式、能力定位、参数规模** 四个核心维度理解，其中 **交互形态和部署方式** 是开发选型时最关键的两个维度；
2. 日常开发中，“Chat Model（聊天模型）+ 闭源 API/开源本地部署”是最主流的组合；
3. 嵌入模型、多模态模型属于“专项能力模型”，常和 Chat Model 配合使用（如 RAG 中 Embedding + Chat Model）。

原文出处：http://malaoshi.top/show_1GW2poHiJDiU.html