PaddleOCR百度飞桨OCR介绍、安装-马育民老师

# 介绍

2025年5月20日，飞桨团队发布PaddleOCR 3.0，全面适配飞桨框架3.0正式版，进一步提升文字识别精度，支持多文字类型识别和手写体识别，满足大模型应用对复杂文档高精度解析的旺盛需求，结合文心大模型4.5 Turbo显著提升关键信息抽取精度，并新增对昆仑芯、昇腾等国产硬件的支持。

### 新增三大特色能力

🖼️全场景文字识别模型PP-OCRv5：单模型支持五种文字类型和复杂手写体识别；整体识别精度相比上一代提升13个百分点。在线体验

🧮通用文档解析方案PP-StructureV3：支持多场景、多版式 PDF 高精度解析，在公开评测集中领先众多开源和闭源方案。在线体验

📈智能文档理解方案PP-ChatOCRv4：原生支持文心大模型4.5 Turbo，精度相比上一代提升15个百分点。在线体验

网址：

https://gitee.com/paddlepaddle/PaddleOCR

官方文档：
https://paddlepaddle.github.io/PaddleOCR/latest/

# 安装

```
pip install paddlepaddle
```

```
pip install paddleocr
```

# 配置说明

### 模型默认位置

```
C:\Users\用户名\.paddlex\official_models
```

如下：

[![](https://www.malaoshi.top/upload/0/0/1GW1S2krf4RS.png)](https://www.malaoshi.top/upload/0/0/1GW1S2krf4RS.png)

刚安装时，可能没有模型，在第一次运行时，检测到用哪些模型，会自动下载，并保存到此位置

### 字体默认位置

```
C:\Users\用户名\.paddlex\fonts
```

有时安装后，识别文字保存图片，会报错，是因为字体没有正确安装

# 例子

使用 mobile 轻量模型识别文字，大概在27秒

```
from paddleocr import PaddleOCR
import time

# 初始化 PaddleOCR 实例
ocr = PaddleOCR(
    use_doc_orientation_classify = True, # 文档方向分类，默认值为True。适用古籍竖排文字
    use_doc_unwarping = True, # 是否使用文档扭曲矫正模块，默认值为True
    use_textline_orientation = True, # 是否使用文本行方向分类模块
    # det_model_dir='PP-OCRv5_mobile_det',  # 检测模型路径
    # rec_model_dir='PP-OCRv5_mobile_rec',  # 识别模型路径
    text_detection_model_name="PP-OCRv5_mobile_det", # 指定mobile轻量模型，使用CPU执行快，但准确率低
    text_recognition_model_name="PP-OCRv5_mobile_rec", # 指定mobile轻量模型，使用CPU执行快，但准确率低
)
print("加载模型完毕！")
# 对示例图像执行 OCR 推理 
start_time = time.time()
result = ocr.predict(input="2.png")
# 记录结束时间并计算耗时
end_time = time.time()
elapsed_time = end_time - start_time
print(f"代码执行耗时: {elapsed_time:.4f} 秒")

# 可视化结果并保存 json 结果
for res in result:
    # res.print()
    res.save_to_json(save_path="./output/5_mobile_res.json")
    # res.save_to_img(save_path="./output/2.png")
```

原文出处：http://malaoshi.top/show_1GW1LoxQgOzJ.html