HanLP 自然语言处理（分词）-马育民老师

# 介绍
HanLP（Han Language Processing）是一款由中国开发者主导、面向全球多语言场景的**开源自然语言处理（NLP）工具包**，核心定位是“让NLP技术更易用、更高效”，支持中文、英文、日文、韩文等多种语言，尤其在中文NLP任务中具备丰富的功能和成熟的性能，广泛应用于科研、工业界的文本分析场景。

官网：
https://www.hankcs.com/

在线演示
https://hanlp.hankcs.com/

# 一、核心定位与发展背景

## 1. 起源与演进
HanLP最初由哈尔滨工业大学社会计算与信息检索研究中心（HIT-SCIR）主导开发，早期版本（如v1.x）以“中文NLP工具集”为核心，聚焦分词、词性标注、句法分析等基础任务；后续逐步迭代至v2.x、v3.x版本，扩展为**多语言支持、模块化架构、工业级性能**的工具包，目前由社区维护（GitHub开源），持续更新以适配新的NLP技术（如预训练模型）。

## 2. 核心目标
- **降低NLP门槛**：提供简洁的API，让非专业开发者也能快速实现文本分析功能；
- **兼顾科研与工业**：支持学术实验的“轻量模式”（快速验证想法）和工业场景的“高性能模式”（高并发、低延迟）；
- **多语言兼容**：不仅优化中文处理，还支持英文、日文、韩文等语言的核心任务，满足全球化场景需求。

# 二、核心功能模块

HanLP的功能覆盖NLP“全流程”，从基础的文本预处理到高阶的语义理解，可分为**基础工具、核心任务、高阶应用**三大层面，具体如下：

| 功能层级 | 具体任务 | 说明 |
|----------|----------|------|
| **基础工具** | 文本清洗 | 去除特殊字符、标准化编码（如UTF-8）、换行符处理等 |
|          | 分词（Tokenizer） | 中文分词（支持精确模式、全模式、搜索引擎模式）、多语言分词（英文按空格切分，日文按词素切分） |
|          | 词性标注（POS Tagging） | 标注词语的语法属性（如中文“苹果”标注为“n”（名词），英文“apple”标注为“NN”） |
|          | 命名实体识别（NER） | 提取文本中的实体（如人名、地名、机构名、时间、数字，支持自定义实体类型） |
| **核心任务** | 句法分析 | 依存句法分析（分析词语间的语法关系，如“小明吃苹果”中“吃”是核心动词，“小明”是主语）、 constituency句法分析（构建句子的语法结构树） |
|          | 语义角色标注（SRL） | 标注句子中“谓词-论元”关系（如“小明在公园跑步”中，“跑步”是谓词，“小明”是“施事”，“公园”是“地点”） |
|          | 文本分类 | 支持自定义分类任务（如情感分析、垃圾邮件识别、主题分类），可基于预训练模型微调 |
| **高阶应用** | 关键词提取 | 从文本中提取核心词汇（如从新闻中提取“人工智能”“政策”等关键词） |
|          | 摘要生成 | 自动生成文本的摘要（支持抽取式摘要，即从原文选关键句；部分版本支持生成式摘要） |
|          | 相似度计算 | 计算两个文本的语义相似度（如判断“手机很好用”和“这款手机体验不错”的相似度） |
|          | 多语言支持 | 除中文外，支持英文、日文、韩文的分词、NER、句法分析，适配小语种场景 |

# 三、技术特点
HanLP能在众多NLP工具包中脱颖而出，核心源于其**技术架构的灵活性、性能的高效性、使用的易用性**，具体特点如下：

### 1. 模块化与可扩展性
HanLP采用“插件化架构”，每个功能（如分词、NER）都是独立模块，支持：
- 按需加载：仅引入需要的模块（如仅用分词功能，无需加载句法分析），减少资源占用；
- 自定义扩展：支持替换默认模块（如用自己训练的分词模型替换HanLP的默认模型），或新增自定义任务（如自定义实体类型的NER）。

### 2. 多模型支持，兼顾精度与速度
HanLP为同一任务提供“轻量模型”和“高精度模型”，满足不同场景需求：
- 轻量模型：基于传统机器学习（如CRF、HMM），速度快、内存占用低，适合低资源设备（如嵌入式设备）或高并发场景（如实时文本处理）；
- 高精度模型：基于预训练语言模型（如BERT、RoBERTa），在中文NLP任务（如NER、句法分析）上精度领先，适合对效果要求高的场景（如科研、复杂文本分析）。

### 3. 易用性：低代码API
HanLP提供简洁的Python/Java API，无需深入理解NLP原理即可快速调用功能。例如，中文分词仅需3行代码：
```python
from hanlp import HanLP
# 加载默认分词模型，处理文本
tokenizer = HanLP.load("CTB6_CONVSEG")
print(tokenizer("HanLP是一款优秀的NLP工具包"))  # 输出：['HanLP', '是', '一款', '优秀', '的', 'NLP', '工具包']
```

### 4. 开源免费，社区活跃
- 开源协议：基于**Apache License 2.0**，允许商业使用（需保留版权声明），无商业授权成本；
- 社区支持：GitHub仓库（[hankcs/HanLP](https://github.com/hankcs/HanLP)）有超30k星，文档完善，社区问题响应及时，还提供官方教程和示例代码。

# 四、支持的语言与场景

### 1. 主要支持语言

- **核心语言**：中文（覆盖简体、繁体，支持古汉语（如文言文）的基础处理）；
- **多语言**：英文、日文、韩文、阿拉伯语、法语等（基础任务如分词、NER已适配，部分语言支持句法分析）。

### 2. 典型应用场景

HanLP的功能覆盖“文本处理全链路”，常见应用场景包括：

- **科研领域**：NLP相关论文实验（如对比分词精度、NER效果）、语言学研究（句法结构分析）；
- **工业领域**：
  - 内容平台：文本分类（新闻分类、短视频标签生成）、关键词提取（文章标签）、摘要生成（新闻摘要）；
  - 智能客服：意图识别（用户问题分类）、命名实体提取（提取用户提到的“订单号”“产品名”）；
  - 金融领域：舆情分析（分析新闻、评论中的情感倾向）、信息抽取（从财报中提取“营收”“利润”等实体）；
  - 政务领域：文本审核（敏感信息识别）、公文分类（政策文件归类）。

## 五、版本差异与选择

HanLP衍生出了 `1.x` 和 `2.x` 两大版本，覆盖Java、Python、Golang等编程语言。

2020年初，基于深度学习的 `HanLPv2.x` 发布，作为面向下一个十年的前沿NLP技术，与 `1.x` 相辅相成，平行发展。 新版旧版各有侧重，如何选择？

- 追求最强大、精准、先进的前沿技术，选择2.x。面向次世代进化，2.x分支革新大规模先端模型与语料库，支持多语种多任务，持续高速迭代研发。

- 追求最经典、稳定、高效的生产系统，选择1.x。作为最后的武士，1.x分支将继续提供稳定性维护，但不会增加新功能。

两者在架构、功能上差异较大，需根据需求选择：

| 版本 | 架构 | 核心特点 | 适用场景 |
|------|------|----------|----------|
| v1.x | 传统模块化 | 功能简单（仅基础任务）、依赖少、部署轻量 | 低资源设备、简单文本处理（如仅分词）、兼容旧系统 |
| v2.x | 插件化+预训练模型 | 多语言支持、高阶任务（如SRL、摘要）、精度高 | 工业级场景、科研实验、多语言文本分析 |

**建议**：一般使用，用 `v1.x` 就足够了。由于 `v2.x` 依赖PyTorch、TensorFlow等深度学习技术，部署较复杂，且用 GPU 速度更快

## 六、与其他NLP工具包的对比
HanLP与中文NLP领域的其他工具包（如jieba、THULAC）相比，优势和差异如下：

| 工具包 | 核心优势 | 劣势 | 适用场景 |
|--------|----------|------|----------|
| **HanLP** | 多任务支持（分词+NER+句法）、多语言、高精度模型 | 资源占用略高（高精度模型） | 复杂文本分析、多语言场景、科研+工业 |
| **jieba** | 轻量、速度快、分词功能成熟 | 仅支持中文基础任务（无句法、NER） | 简单中文分词（如日志分析、简单文本处理） |
| **THULAC** | 哈工大出品，中文分词/词性标注精度高 | 更新频率低、功能单一 | 中文基础任务（需高分词精度，无高阶需求） |

# 七、python快速入门

若需体验HanLP，可通过以下步骤快速上手（以Python为例）：

HanLP1.x 由java开发，所以需要安装JDK11（截止到写本文），然后python才能运行

官网：

https://hanlp.hankcs.com/install.html

1. **安装依赖**：
 ```bash
 pip install hanlp
 ```

2. **调用基础任务**（如中文分词+NER）：
 ```
 from hanlp import HanLP
 
 # 加载中文分词+NER模型
 pipeline = HanLP.pipeline().append(
 HanLP.load("CTB6_CONVSEG"),  # 分词模型
 HanLP.load("MSRA_NER_BERT_BASE_ZH"),  # NER模型（基于BERT）
 )
 
 # 处理文本
 result = pipeline("哈尔滨工业大学位于黑龙江省哈尔滨市")
 print("分词结果：", result["tok/fine"])
 print("NER结果：", result["ner/msra"])
 ```

3. **输出结果**：
 ```
 分词结果： ['哈尔滨工业大学', '位于', '黑龙江省', '哈尔滨市']
 NER结果： [('哈尔滨工业大学', 'ORG', 0, 6), ('黑龙江省', 'LOC', 8, 12), ('哈尔滨市', 'LOC', 12, 16)]
 ```

# 总结
HanLP是一款**功能全面、易用性高、兼顾科研与工业**的多语言NLP工具包，尤其在中文处理领域具备成熟的性能和丰富的任务支持。无论是简单的文本分词，还是复杂的句法分析、语义理解，HanLP都能提供高效的解决方案，是中文NLP领域值得优先选择的工具之一。

如需深入学习，可参考官方文档：[HanLP官方文档](https://hanlp.hankcs.com/docs/)。

原文出处：http://malaoshi.top/show_1GW1kmVSp05f.html