python 中文OCR识别Tesseract

https://ift.tt/2ypbNzZ

介绍
Mac下的安装
- 添加训练集
实例代码

介绍

中文识别的实现方式很多，找了个几种
1. 百度ocr api，中文识别率最高，白纸黑字几乎无错，但是收费，价格不高，就是充钱坑人，账户余额得大于100 这里有一个介绍比较好的中文文档
2. 阿里ocr api，没用过，看了一下挺贵的
3. pytesser 已经过时了，新的就是tesseract
4. calamari 没用过，文档有点复杂

最后选择了Tesseract，先说下结果：Tesseract OCR 免费开源，但是识别率不如百度，需要训练集，就因为这个服务端部署的时候麻烦，中文识别率出奇的垃圾

Mac下的安装

环境
```
MacOSX
python 3.6
brew
```
安装tesseract
```
brew install tesseract
```
安装python对应的包：pytesseract
```
pip install pytesseract
```

添加训练集

如果要识别中文，需要下载中文的训练集，下载网址：https://github.com/tesseract-ocr/tessdata

下面以识别中文为例：首先找到官方提供的中文训练集

下载红框圈起来的数据，然后放到指定的路径下，一般mac是这个地址下：

直接丢进去就行了

实例代码

简单的几行代码就可以进行识别

#!/usr/bin/env python3 
# -*- coding: utf-8 -*- 
import pytesseract 
from PIL import Image 

# open image 
image = Image.open('test.png') 
code = pytesseract.image_to_string(image, lang='chi_sim')
print(code)

事实发现识别率还是很差的，可能还需要自己去对数据进行训练，这里我用过一个对osd进行识别的帖子，当时自己做完了之后识别数字几乎到了100%的识别率

https://blog.csdn.net/zmnqiangwei/article/details/44198355

The post python 中文OCR识别Tesseract appeared first on cole.

https://ift.tt/2yNyBZo Python, ocr, python, Tesseract October 18, 2018 at 10:05AM

cole

搜索此博客