PaddleOCR配置使用笔记

安装PaddlePaddle

GPU版本需要参考官网提供的方法安装，CPU版本可以直接pip安装：

pip install paddlepaddle

验证是否安装成功：

import paddle
paddle.utils.run_check()

克隆PaddleOCR repo

git clone https://github.com/PaddlePaddle/PaddleOCR

安装依赖：

pip install -r requirements.txt

验证是否安装成功：

from paddleocr import PaddleOCR

此时若出现No module named paddle说明paddlepaddle没有装上，参考如下命令安装即可：

python3 -m pip install paddlepaddle-gpu==2.0.0 -i https://mirror.baidu.com/pypi/simple # gpu机器
python3 -m pip install paddlepaddle==2.0.0 -i https://mirror.baidu.com/pypi/simple # cpu机器
pip install "paddleocr>=2.0.1"

完成后再次验证即可。

使用预训练模型

在Github下载轻量OCR模型中的检测模型、方向分类器、识别模型的推理模型下载下来，并解压至项目文件中的inference文件夹下。

值得注意的是，这三个文件解压完毕后应有如下文件结构：

├── ch_ppocr_mobile_v2.0_cls_infer
│ ├── inference.pdiparams
│ ├── inference.pdiparams.info
│ └── inference.pdmodel
├── ch_ppocr_mobile_v2.0_det_infer
│ ├── inference.pdiparams
│ ├── inference.pdiparams.info
│ └── inference.pdmodel
├── ch_ppocr_mobile_v2.0_rec_infer
├── inference.pdiparams
├── inference.pdiparams.info
└── inference.pdmodel

只要按照上述要求做了，如果模型路径下没有找到模型文件，后续会自动下载。

安装paddleocr

pip install "paddleocr>=2.0.1"

运行程序

创建文件ocr.py并运行：

from paddleocr import PaddleOCR, draw_ocr
import cv2
# 模型路径下必须含有model和params文件，如果没有，现在可以自动下载了，不过是最简单的模型
# use_gpu 如果paddle是GPU版本请设置为 True
ocr = PaddleOCR(use_angle_cls=True, use_gpu=False)

# 这个是自己的图片，可以根据情况自行修改
img_path = 'C:/Users/Administrator/Desktop/PaddleOCR/PaddleOCR-release-2.4/doc/imgs/11.jpg'

result = ocr.ocr(img_path, cls=True)
# print结果
for line in result:
    print(line)
img = cv2.imread(img_path)
boxes = [line[0] for line in result]
txts = [line[1][0] for line in result]
scores = [line[1][1] for line in result]
# 显示图片结果
img = draw_ocr(img, boxes, txts, scores)
cv2.imshow("result", img)
cv2.waitKey(0)

通过命令直接调用的方式如下：

python tools/infer/predict_system.py --image_dir="./doc/imgs/11.jpg" --det_model_dir="./inference/ch_PP-OCRv2_det_infer/ch_PP-OCRv2_det_infer/"  --rec_model_dir="./inference/ch_PP-OCRv2_rec_infer/ch_PP-OCRv2_rec_infer/" --cls_model_dir="./inference/ch_ppocr_mobile_v2.0_cls_infer/" --use_angle_cls=True --use_space_char=True --use_gpu=False

服务端安装

安装`paddlehub`：

pip install paddlehub --upgrade -i https://pypi.tuna.tsinghua.edu.cn/simple

安装服务模块：

# 安装检测服务模块：
hub install deploy/hubserving/ocr_det/
# 或，安装分类服务模块：
hub install deploy/hubserving/ocr_cls/
# 或，安装识别服务模块：
hub install deploy/hubserving/ocr_rec/
# 或，安装检测+识别串联服务模块：只安装了这个
hub install deploy/hubserving/ocr_system/

启动(配置文件方式)

方法一（仅支持CPU）：

启动命令：

$ hub serving start --modules [Module1==Version1, Module2==Version2, ...] \
                    --port XXXX \
                    --use_multiprocess \
                    --workers \

参数：

参数	用途
--modules/-m	PaddleHub Serving预安装模型，以多个Module==Version键值对的形式列出 `当不指定Version时，默认选择最新版本`
--port/-p	服务端口，默认为8866
--use_multiprocess	是否启用并发方式，默认为单进程方式，推荐多核CPU机器使用此方式 `Windows操作系统只支持单进程方式`
--workers	在并发方式下指定的并发任务数，默认为`2*cpu_count-1`，其中`cpu_count`为CPU核数

如启动串联服务： hub serving start -m ocr_system

这样就完成了一个服务化API的部署，使用默认端口号8866。

方法二（支持CPU、GPU）：

在项目根目录,会监听端口8868,自定义可配置config.json

hub serving start -c config.json

启动命令：
hub serving start -c config.json

其中，config.json格式如下：

{
    "modules_info": {
        "ocr_system": {
            "init_args": {
                "version": "1.0.0",
                "use_gpu": false
            },
            "predict_args": {
            }
        }
    },
    "port": 8868,
    "use_multiprocess": false,
    "workers": 2
}

init_args中的可配参数与module.py中的_initialize函数接口一致。其中，当use_gpu为true时，表示使用GPU启动服务。
predict_args中的可配参数与module.py中的predict函数接口一致。

注意:

使用配置文件启动服务时，其他参数会被忽略。
如果使用GPU预测(即，use_gpu置为true)，则需要在启动服务之前，设置CUDA_VISIBLE_DEVICES环境变量，如：export CUDA_VISIBLE_DEVICES=0，否则不用设置。
use_gpu不可与use_multiprocess同时为true。

如，使用GPU 3号卡启动串联服务：

export CUDA_VISIBLE_DEVICES=3
hub serving start -c deploy/hubserving/ocr_system/config.json

发送预测请求

配置好服务端，可使用以下命令发送预测请求，获取预测结果:

python tools/test_hubserving.py server_url image_path

需要给脚本传递2个参数：

server_url：服务地址，格式为
http://[ip_address]:[port]/predict/[module_name]

例如，如果使用配置文件启动检测、识别、检测+识别2阶段服务，那么发送请求的url将分别是：
http://127.0.0.1:8866/predict/ocr_det
http://127.0.0.1:8867/predict/ocr_rec
http://127.0.0.1:8868/predict/ocr_system

image_path：测试图像路径，可以是单张图片路径，也可以是图像集合目录路径

访问示例：
python tools/test_hubserving.py http://127.0.0.1:8868/predict/ocr_system ./doc/imgs/

返回结果格式说明

返回结果为列表（list），列表中的每一项为词典（dict），词典一共可能包含3种字段，信息如下：

字段名称	数据类型	意义
text	str	文本内容
confidence	float	文本识别置信度
text_region	list	文本位置坐标

不同模块返回的字段不同，如，文本识别服务模块返回结果不含text_region字段，具体信息如下：

字段名/模块名	ocr_det	ocr_rec	ocr_system
text		✔	✔
confidence		✔	✔
text_region	✔		✔

说明： 如果需要增加、删除、修改返回字段，可在相应模块的module.py文件中进行修改，完整流程参考下一节自定义修改服务模块。

自定义修改服务模块

如果需要修改服务逻辑，你一般需要操作以下步骤（以修改ocr_system为例）：

1、停止服务
hub serving stop --port/-p XXXX
2、到相应的module.py和params.py等文件中根据实际需求修改代码。
例如，如果需要替换部署服务所用模型，则需要到params.py中修改模型路径参数det_model_dir和rec_model_dir，如果需要关闭文本方向分类器，则将参数use_angle_cls置为False，当然，同时可能还需要修改其他相关参数，请根据实际情况修改调试。 强烈建议修改后先直接运行module.py调试，能正确运行预测后再启动服务测试。
3、卸载旧服务包
hub uninstall ocr_system
4、安装修改后的新服务包
hub install deploy/hubserving/ocr_system/
5、重新启动服务
hub serving start -m ocr_system

参考资料：

https://zhuanlan.zhihu.com/p/368627628

https://jieli-matrix.github.io/OCR/

https://blog.csdn.net/Zhangrx_/article/details/118018978

https://www.bookstack.cn/read/PaddleOCR/inference.md

https://www.cxymm.net/article/kyc592/112890488

https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.0/doc/doc_ch/installation.md

https://www.xiangxingyu.com/post/install-paddleocr-and-deploy/

https://github.com/PaddlePaddle/PaddleOCR/tree/develop/deploy/hubserving

版权属于：soarli
本文链接：https://blog.soarli.top/archives/612.html
转载时须注明出处及本声明。

PaddleOCR配置使用笔记

安装PaddlePaddle

克隆PaddleOCR repo

使用预训练模型

安装paddleocr

运行程序

服务端安装

安装`paddlehub`：

安装服务模块：

启动(配置文件方式)

方法一（仅支持CPU）：

方法二（支持CPU、GPU）：

发送预测请求

返回结果格式说明

自定义修改服务模块

发表评论取消回复

关于 git 配置大小写敏感问题的复现与解决方案

记一次从Tomcat到Nginx的大迁移

通过Siri远程开启/关闭电脑

指定chrome使用独立显卡的方法

Linux多用户相关笔记

解决Ubuntu下因依赖包而无法安装问题

经济法学课堂笔记

Nextcloud Talk配置使用笔记

在iOS设备上安装kodi的方法

Nextcloud安装及WebDAV配置笔记

安装PaddlePaddle

克隆PaddleOCR repo

使用预训练模型

安装paddleocr

运行程序

服务端安装

安装paddlehub：

安装服务模块：

启动(配置文件方式)

方法一（仅支持CPU）：

方法二（支持CPU、GPU）：

发送预测请求

返回结果格式说明

自定义修改服务模块

发表评论 取消回复

安装`paddlehub`：

发表评论取消回复