证件的OCR识别”就是针对证件类文档进行识别的技术,原理就是像识细介利用OCR识别技术,通过拍摄证件图像或者从相册中加载图像,别详过滤证件的像识细介背景底纹干扰,自动分析证件各文字进行字符切分、别详识别,像识细介最后将识别结果按各栏目分别导入到软件的别详数据库对应的字段当中。推荐安装云脉证件识别,像识细介人们就不用再依靠手工输入相关证件信息,别详可以实现自动识别采集。像识细介
云脉OCR证件识别一般包括身份证识别、别详驾照识别、像识细介行驶证识别、别详车牌识别、像识细介驾照副页识别、行驶证副页识别、护照识别、企业三证识别、户口本识别、港澳通行证识别,云脉SaaS平台都能下载上述识别api接口
android手机调用OCR识别图像中的文字的方法为:
一、下载&编译tesseract
1、首先下载tess-two。
2、进入 tess目录,里面有三个项目,我们只需要进入tess-two就可以直接编译了。
3、编译好后,将src下的两个包以及libs导入到自己的项目就可以用。
二、使用
1、使用时,首先创建TessBaseAPI对象。
TessBaseAPI baseApi=new TessBaseAPI();
//初始化tess
//android下面,tessdata肯定得放到sd卡里了
//如果tessdata这个目录放在sd卡的根目录
//那么path直接传入sd卡的目录
//eng就是英文,关于语言,按ISO 639-3标准的代码就行,具体请移步wiki
baseApi.init("tessdata文件夹的父级目录","eng");
//options是为了缩放图片,这个酌情缩放,图片小的话可以不缩放
BitmapFactory.Options options=new BitmapFactory.Options();
//缩小为原来的1/2
options.inSampleSize=2;
//bitmap,我这里是以流的形式,只要能形成Bitmap就行
Bitmap bitmap= BitmapFactory.decodeStream(instream,null,options);
instream.close();
//如果图片有Alpha值,那么最好设置一下
//设置要ocr的图片bitmap
baseApi.setImage(bitmap);
//根据Init的语言,获得ocr后的字符串
String text= baseApi.getUTF8Text();
//释放bitmap
baseApi.clear();
//如果连续ocr多张图片,这个end可以不调用,但每次ocr之后,必须调用clear来对bitmap进行释放
//释放native内存
baseApi.end();
///////////////////////////其它方法//////////////////////////////////
//获取字符边框
Pixa pixa= baseApi.getCharacters()
//同上,这个是整段文字的边框
baseApi.getRegions();
//同上,只不过这里是条线
baseApi.getTextlines();
//剩下的自己测试吧。
//转为rect数组,之后,可以很方便的在图片上框出方框
//
ArrayList rects=pixa.getBoxRects();
2、开始识别。
荣耀手机出厂并无自带图片识文字功能,问题中提到无意间发现的图片识别文字功能是QQ、微信等聊天工具内的图片识别文字功能,并不是出厂自带的功能,下面介绍一下QQ识别文字的使用方法:
所需材料:手机QQ、荣耀8X示例。
一、首先打开QQ,点击一张带有文字的图片。
二、图片放大后点击右下角“选项”。
三、弹出的选项列表内点击“提取图中文字”。
四、等待一秒文字就可以转换完成,这时还可以点击右下角“选项”。
五、弹出的列表内可以选择“发送给好友”或是“加入收藏”。
OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题,ICR(Intelligent Character Recognition)的名词也因此而产生。
衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。
我给你一个捷速ocr的使用方法:
第一步:打开我们下载好的软件,会出现一个对话框,选择上面的“从图片中选文件”。然后在对话框中,打开需要编辑的图片。
第二步:图片就会出现在编辑页面中了。这时我们点击上面的“纸面解析”,软件就会自动对文件进行分解排版,以便于后续的识别过程。
第三步:点击上面的“识别”按钮,软件就会自动对文件上的文字进行识别,不一会儿就会把识别结果呈现在右边。大家可以对识别结果进行校对,如果发现错误可以进行改正。如果是多页内容进行识别的话,我们可以点击识别按钮选择下方的“全部”,就能对所有内容进行识别了。如果只想对几页进行识别的话,只要选定该页进行识别就可以了。
第四步:最后我们想要保存为Word形式的话,直接点击上方的“Word”按钮,选择输出路径就可以完成了。当然也可以保存为图片形式,只要点击上方的“图片”按钮即可。
参考资料:合同智能对比