https://ift.tt/2ypbNzZ
介绍
中文识别的实现方式很多,找了个几种
1. 百度ocr api,中文识别率最高,白纸黑字几乎无错,但是收费,价格不高,就是充钱坑人,账户余额得大于100 这里有一个介绍比较好的中文文档
2. 阿里ocr api,没用过,看了一下挺贵的
3. pytesser 已经过时了,新的就是tesseract
4. calamari 没用过,文档有点复杂
最后选择了Tesseract,先说下结果:Tesseract OCR 免费开源,但是识别率不如百度,需要训练集,就因为这个服务端部署的时候麻烦,中文识别率出奇的垃圾
Mac下的安装
- 环境
MacOSX python 3.6
brew - 安装tesseract
brew install tesseract
- 安装python对应的包:pytesseract
pip install pytesseract
添加训练集
如果要识别中文,需要下载中文的训练集,下载网址:https://github.com/tesseract-ocr/tessdata
下面以识别中文为例:首先找到官方提供的中文训练集
下载红框圈起来的数据,然后放到指定的路径下,一般mac是这个地址下:
直接丢进去就行了
实例代码
简单的几行代码就可以进行识别
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
import pytesseract
from PIL import Image
# open image
image = Image.open('test.png')
code = pytesseract.image_to_string(image, lang='chi_sim')
print(code)
事实发现识别率还是很差的,可能还需要自己去对数据进行训练,这里我用过一个对osd进行识别的帖子,当时自己做完了之后识别数字几乎到了100%的识别率
The post python 中文OCR识别Tesseract appeared first on cole.
https://ift.tt/2yNyBZo Python, ocr, python, Tesseract October 18, 2018 at 10:05AM
评论
发表评论