向量数据库-马育民老师

# 介绍

向量数据库（Vector Database）是一种专门用于存储、管理和查询**向量数据**的数据库系统。与传统数据库（结构化数据，如表格、键值对）不同，向量数据库聚焦于处理**非结构化数据**（如文本、图像、音频、视频等）通过嵌入模型（Embedding Model）转化后的向量表示，核心能力是高效的**相似度搜索**。

# **一、核心概念：向量与向量数据**
- **向量**：是一组数值组成的有序数组（如 `[0.12, 0.34, -0.56, ..., 0.78]`），可用于量化描述非结构化数据的特征。例如：
  - 文本向量：通过BERT、Sentence-BERT等模型将一句话转化为向量，向量的“距离”可表示文本语义的相似度；
  - 图像向量：通过ResNet、CLIP等模型将一张图片转化为向量，向量的“距离”可表示图像内容的相似度。
- **向量数据**：非结构化数据经嵌入模型处理后生成的向量集合，是向量数据库的核心存储对象。

# **二、向量数据库的核心功能**
1. **向量存储**  
   高效存储大规模向量数据（从百万到数十亿级），支持高吞吐量的写入、更新和删除操作。

2. **相似度搜索**  
   这是向量数据库最核心的能力。通过计算向量间的“距离”（如欧氏距离、余弦相似度、曼哈顿距离等），快速找到与目标向量最相似的Top N个向量。  
   - 例如：输入一张“猫”的图片向量，搜索结果返回数据库中最相似的“猫”的图片向量。

3. **元数据过滤**  
   除向量外，通常还会存储与向量关联的元数据（如文本标签、时间戳、类别等），支持结合元数据进行“向量相似度+条件过滤”的混合查询（如“找到近3天内上传的、与‘AI技术’语义相似的文章向量”）。

4. **分布式与高可用**  
   支持水平扩展（分片存储）、副本机制，确保大规模数据下的查询性能和系统稳定性。

# **三、关键技术：向量索引**
向量数据库的高效搜索依赖于**向量索引**（Vector Index），其作用类似传统数据库的索引（如B+树），但专为向量相似度计算优化。常见的索引算法包括：

| 索引类型       | 原理特点                                  | 适用场景                                  | 代表算法/工具               |
|----------------|-------------------------------------------|-------------------------------------------|------------------------------|
| 精确索引       | 遍历所有向量计算距离（无近似），精度100%   | 小规模数据（万级以下），需绝对精确结果    | 线性扫描（Linear Scan）      |
| 近似索引（ANN） | 通过聚类、分层等策略减少计算量，牺牲少量精度换取速度 | 大规模数据（百万级以上），允许毫秒级响应  | HNSW、IVF、FAISS、Annoy      |

- **HNSW（Hierarchical Navigable Small World）**：目前主流的高性能索引，通过构建多层“小世界网络”，实现高效的近似搜索，平衡速度和精度。
- **IVF（Inverted File）**：先将向量聚类到多个“桶”（Cluster），查询时仅在目标桶内计算距离，减少计算量，适合高维向量。

# **四、典型应用场景**
向量数据库是AI时代连接非结构化数据与大模型的关键组件，核心场景包括：

1. **检索增强生成（RAG）**  
   大模型（如GPT）的“知识截止”问题可通过RAG解决：将私有文档（如企业手册、论文）转化为向量存入数据库，用户提问时先检索相似向量对应的文档片段，再将片段作为“上下文”输入大模型，生成基于最新/私有知识的回答。

2. **图像/视频检索**  
   例如：上传一张“红色连衣裙”的图片，通过向量数据库快速找到电商平台中相似款式的商品；监控视频中检索特定人物/物体。

3. **自然语言处理（NLP）**  
   - 语义搜索：搜索“如何学习C#”，返回与“C#入门”“编程学习方法”等语义相似的内容（而非关键词匹配）；
   - 文本聚类、去重：识别重复或相似的文本（如新闻查重）。

4. **推荐系统**  
   基于用户行为向量（如浏览、购买记录），检索相似用户或相似商品向量，实现个性化推荐（如“猜你喜欢”）。

5. **多模态检索**  
   跨类型数据的相似性搜索，例如：用文本“蓝天白云”检索相似的图片；用图片检索描述该图片的文本。

# **五、主流向量数据库对比**
目前市场上有多种开源和商业向量数据库，各有侧重：

| 名称          | 类型       | 特点                                  | 适用场景                                  |
|---------------|------------|---------------------------------------|-------------------------------------------|
| Milvus        | 开源       | 分布式架构，支持多种索引（HNSW/IVF等），兼容多语言SDK | 企业级大规模部署，需自定义配置            |
| Pinecone      | 商业（SaaS）| 全托管，开箱即用，无需关注底层运维      | 快速搭建原型，中小规模应用                |
| Weaviate      | 开源/商业  | 支持 GraphQL API，内置多种嵌入模型集成  | 需结合语义理解的场景，开发者友好          |
| Qdrant        | 开源       | 轻量级，支持动态向量更新，适合边缘设备  | 小规模部署、嵌入式场景                    |
| FAISS         | 开源库     | 高效向量搜索库（非完整数据库），需结合其他存储使用 | 对性能要求极高，可集成到现有系统          |

## 嵌入式向量数据库

不需要部署服务器，可在应用程序中直接控制使用，常见有：

- LanceDB
- chromaDB

### LanceDB

LanceDB 是一个用于 AI 的开源向量数据库，旨在存储、管理、查询和检索大规模多模态数据的嵌入。LanceDB 的核心是用 Rust编写的，并建立在Lance之上，Lance 是一种开源列式数据格式，专为高性能 ML 工作负载和快速随机访问而设计。

**部署方式：**提供开源 (OSS) 和云端 (Cloud) 两种部署方式。

- OSS 版本是嵌入式的，无需管理服务器
 - Cloud 版本是无服务器的 SaaS 服务，具有成本效益和高可扩展性。
 
**哪些语言支持：**Rust、Python 和 Javascript/Typescript

# **六、与传统数据库的区别**
| 维度                | 传统数据库（如MySQL、MongoDB）          | 向量数据库                              |
|---------------------|-----------------------------------------|-----------------------------------------|
| 存储对象            | 结构化/半结构化数据（表格、文档等）     | 向量数据（非结构化数据的特征表示）       |
| 查询方式            | 基于关键词、条件（如 `WHERE id=1`）      | 基于向量相似度（如“找最像向量A的Top10”） |
| 核心能力            | 事务一致性、结构化查询优化              | 高维向量高效检索、近似搜索              |
| 适用数据规模        | 结构化数据，规模受限于表结构设计        | 海量非结构化数据（向量），支持水平扩展    |

# **总结**
向量数据库是AI时代处理非结构化数据的核心工具，通过将非结构化数据转化为向量并高效检索，解决了传统数据库无法处理“语义/特征相似性”的痛点。其在RAG、多模态检索、推荐系统等场景中已成为标配，随着大模型技术的普及，向量数据库的重要性将持续提升。

原文出处：http://malaoshi.top/show_1GW1dPWjEgKY.html