大模型分类 作者:马育民 • 2026-02-24 07:41 • 阅读:10005 # 介绍 大模型根据不同任务、不同目标、不同训练方式、不同的部署方式、是否开源等,会有不同的分类 # 根据任务、训练方式分类 根据任务分类: - **LLM 任务**:预测下一个词(续写) - 训练目标:文章、小说、代码补全 - **Chat Model 任务**:理解对话、回答问题、服从指令 - 训练目标:多轮对话、听话、按角色回答 根据训练方式分类: - LLM:只做**无监督预训练** - Chat Model:在 LLM 基础上做 - **SFT 有监督微调** - **RLHF 人类偏好对齐** 所以分成两类: - 你要**续写文章** → LLM 结构最适合 - 你要**聊天、助手、客服** → Chat Model 结构最适合 **LLM大语言模型 和 Chat Model聊天模型 区别,详见 [链接](https://www.malaoshi.top/show_1GW2pd6xyaGM.html "链接")** # 根据专业知识、训练数据分类 根据专业知识分类: - 通用模型:什么都懂一点,但**不精** - 医疗/法律/代码模型:**只精一个领域** 根据训练数据分类: - 通用:全网文本 - 垂直:专业文献、病历、法律条文、代码库 所以必须分类:做 **医疗问诊**,不可能用通用大模型,必须用**医疗大模型**。 # 根据是否开源分类 因为企业需求不一样: - 要隐私 → 本地部署 → 开源 - 要方便 → 直接调用 → 闭源API # 多模态模型 与其他模型不同,该模型不只文字,可以输入: - 文字 - 图片 - 音频 - 视频 ### 模型结构不一样 需要处理 **不同模态的数据** ### 应用场景 实现 **看图回答、OCR、图文理解**,只能用多模态。 # Embedding 嵌入模型 与普通模型不同,该模型根本不负责生成内容、不回答问题 它只做一件事:**把文字 → 向量** 用于:检索、相似度、RAG、推荐 ### 应用场景 你做知识库、搜索、匹配,**必须用 Embedding**,生成模型做不了。 # 按交互形态 这是开发中最常接触的分类,对应 LangChain 里的核心模型类型: | 分类 | 核心特征 | 代表模型 | 典型应用 | |------|----------|----------|----------| | **大语言模型(LLM)** | 纯文本输入输出,核心是“文本补全/续写”,无对话角色概念 | GPT-3(text-davinci-003)、LLaMA 1 | 文本生成、摘要、翻译、代码补全 | | **聊天模型(Chat Model)** | 基于角色(system/user/assistant)的多轮对话交互,专为对话优化 | GPT-3.5/4 Turbo、文心一言、通义千问、GLM-4 | 智能客服、AI 助手、多轮问答 | | 多模态模型 | 支持文本、图片、音频、视频等多输入输出 | GPT-4V、Claude 3、通义千问多模态、文心4.0多模态 | 看图问答、图文生成、语音交互 | # 按部署方式 开发选型核心维度 | 分类 | 核心特征 | 优势 | 劣势 | |------|----------|------|------| | 闭源商业模型(API 调用) | 厂商托管,通过 API 调用,无需本地部署 | 效果好、维护成本低、更新快 | 付费、数据隐私风险、有调用限制 | | 开源本地模型 | 可下载权重,本地/私有化部署 | 数据可控、无调用限制、定制化强 | 需硬件资源(GPU)、维护成本高、效果略逊 | | 混合部署模型 | 核心逻辑本地部署,部分能力调用API | 平衡隐私与效果 | 架构复杂、调试成本高 | # 按能力定位 按场景细分 | 分类 | 核心特征 | 代表模型 | |------|----------|----------| | 通用大模型 | 全场景适配,无明显领域限制 | GPT-4、文心一言、通义千问、GLM-4 | | 领域大模型 | 针对特定行业优化 | 医疗大模型(讯飞医疗)、法律大模型(北大法宝)、代码大模型(CodeLlama、DeepSeek-Coder) | | **嵌入模型(Embedding)** | 专注文本向量化,无生成能力 | text-embedding-ada-002、通义嵌入、文心嵌入 | | 工具调用模型 | 专为调用外部工具/函数优化 | GPT-4 Turbo、Gemini Pro、GLM-4 | # 按规模/参数 | 分类 | 核心特征 | 说明 | |------|----------|------| | 大参数模型 | 参数量≥100B(百亿级) | 效果强,但部署成本高(如 GPT-4、LLaMA 2 70B) | | 中小参数模型 | 参数量≤10B(十亿级) | 轻量、部署成本低,适合边缘设备(如 Phi-2、Qwen-7B) | # 开发选型参考逻辑 1. 先定**交互形态**:做对话选 Chat Model,做文本生成可选基础 LLM,做图文交互选多模态; 2. 再定**部署方式**:数据敏感选开源本地模型,追求效率选闭源 API 模型; 3. 最后定**能力定位**:通用场景选通用大模型,垂直领域选领域大模型,做语义检索选嵌入模型。 # 总结 1. 大模型分类可从 **交互形态、部署方式、能力定位、参数规模** 四个核心维度理解,其中 **交互形态和部署方式** 是开发选型时最关键的两个维度; 2. 日常开发中,“Chat Model(聊天模型)+ 闭源 API/开源本地部署”是最主流的组合; 3. 嵌入模型、多模态模型属于“专项能力模型”,常和 Chat Model 配合使用(如 RAG 中 Embedding + Chat Model)。 原文出处:http://malaoshi.top/show_1GW2poHiJDiU.html