跳至主要内容

python 中文OCR识别Tesseract

https://ift.tt/2ypbNzZ

介绍

中文识别的实现方式很多,找了个几种
1. 百度ocr api,中文识别率最高,白纸黑字几乎无错,但是收费,价格不高,就是充钱坑人,账户余额得大于100 这里有一个介绍比较好的中文文档
2. 阿里ocr api,没用过,看了一下挺贵的
3. pytesser 已经过时了,新的就是tesseract
4. calamari 没用过,文档有点复杂

最后选择了Tesseract,先说下结果:Tesseract OCR 免费开源,但是识别率不如百度,需要训练集,就因为这个服务端部署的时候麻烦,中文识别率出奇的垃圾

Mac下的安装

  • 环境
    MacOSX
    python 3.6
    brew
  • 安装tesseract
    brew install tesseract
    
    
  • 安装python对应的包:pytesseract
    pip install pytesseract
    
    

添加训练集

如果要识别中文,需要下载中文的训练集,下载网址:https://github.com/tesseract-ocr/tessdata 

下面以识别中文为例:首先找到官方提供的中文训练集

下载红框圈起来的数据,然后放到指定的路径下,一般mac是这个地址下:

直接丢进去就行了

实例代码

简单的几行代码就可以进行识别

#!/usr/bin/env python3 
# -*- coding: utf-8 -*- 
import pytesseract 
from PIL import Image 

# open image 
image = Image.open('test.png') 
code = pytesseract.image_to_string(image, lang='chi_sim')
print(code)

事实发现识别率还是很差的,可能还需要自己去对数据进行训练,这里我用过一个对osd进行识别的帖子,当时自己做完了之后识别数字几乎到了100%的识别率

https://blog.csdn.net/zmnqiangwei/article/details/44198355

The post python 中文OCR识别Tesseract appeared first on cole.

https://ift.tt/2yNyBZo Python, ocr, python, Tesseract October 18, 2018 at 10:05AM

评论

此博客中的热门博文

反Hook 之自己实现GetProcAddress和LoadLibraryA(c++ version)

http://ift.tt/2AocAD0 // 课上练习.cpp : 定义控制台应用程序的入口点。 // #include "stdafx.h" #include <windows.h> //要实现的功能: /* 自己实现GerProcAddress LoadLibraryA */ //思路: /* GerProcAddress和LoadLibraryA都是在Kernel32.dll中的 首要的任务就是找到Kernel32.dll,然后遍历IAT就能找到这两个函数 现在首要的难点就是如何找到kernel32.dll() 通过dll的加载顺序可以找到,而且虽然需要使用未文档化的API,但是好在windgb可以直接看,而且用到的也并不是很多 懒得去晚上搜了,直接自己实现一个得了,作为演示,能用就行(最好还是搜一个正规的结构体) */ /* 0: kd> dt _TEB /a nt!_TEB +0x000 NtTib : _NT_TIB +0x01c EnvironmentPointer : Ptr32 Void +0x020 ClientId : _CLIENT_ID +0x028 ActiveRpcHandle : Ptr32 Void +0x02c ThreadLocalStoragePointer : Ptr32 Void +0x030 ProcessEnvironmentBlock : Ptr32 _PEB //首先实现部分TEB结构体,因为只需要用的PEB的部分,所以实现到这就ok了 */ //构建 TEB typedef struct _TEB { //保证0x30是peb的结构体就ok了 struct _tem { DWORD a1; DWORD a2; DWORD a3; DWORD a4; DWORD a5; DWORD a6; DWORD a7; DWORD a8; DWORD a9; DWORD a10; ...

IDA动态调试ELF中遇到的问题(1)

https://ift.tt/2Gxnf2F 遇到 got SIGCHLD singal(child status has changed)...这种提示 singal fork了子进程 直接点yes,然后继续单步执行,出来提示 pass to application就行了 内存查看 用od习惯了之后,凡事都想右键看一下内存,但是IDA中好像没有那么如意, 目前只是在栈中右键发现有查看hex的选项 动态调试的时候的nop ida保存动态调试的时候修改的数据 方法一:在程序运行的时候保存 The post IDA动态调试ELF中遇到的问题(1) appeared first on cole . https://ift.tt/2q9Qf5g WHATEVER April 05, 2018 at 09:44AM

数据库(MySQL)编程之数据库和表的基本操作

http://ift.tt/2gOXg6X     数据库和表的基本操作 操作前的基本知识 基本 sql语句不区分大小写(关键字建议用大小写),但字符串常量区分大小写 sql语句可单行或多行书写,以; 结尾 关键字不能跨行或简写 可以用空格或者缩进来提高可读性 注释 sql标准 /**/ : 多行注释 "--":单行注释 mysql 标准: "#":单行注释 "COMMENT":为字段或列添加注释 创建和查看数据库 创建数据库 模板 CREATE DATABASE [IF NOT EXISTS ] db_name create_specification: IF NOT EXITSTS : 检查数据库是否存在,如果存在就不创建 creat_specification :创建条件 CHARACTER SET: 制定数据聚采用的字符集 COLLATE :制定数据库字符集的比较方式 DEFAULT :表示默认内容,即使没有制定该项,也有默认的值 # 创建数据库使用字符集为 UTF-8 ,使用规则为 uftf_bin CREATE DATABASE db_name DEFAULT CHARACTER SET utf8 COLLATE uft8_bin; 一般默认的数据库就是utf8 和utf8_bin的比较方式,因此一般创建数据库的时候都用 CREATE DATABASE db_name mysql> create database testdb; Query OK, 1 row affected (0.02 sec) 查看数据库 命令 SHOW DATABASES     mysql> show databases; +--------------------+ | Database | +--------------------+ | information_schema | | mysql | | performance_schema | | sakila | | sys | | testdb | |...