android手机调用OCR识别图像中的文字的方法为:
一、下载&编译tesseract
1、文字首先下载tess-two。软件
2、个好进入 tess目录,图片里面有三个项目,识别识别我们只需要进入tess-two就可以直接编译了。文字
3、软件编译好后,个好将src下的图片两个包以及libs导入到自己的项目就可以用。
二、识别识别使用
1、文字使用时,软件首先创建TessBaseAPI对象。个好
TessBaseAPI baseApi=new TessBaseAPI();
//初始化tess
//android下面,tessdata肯定得放到sd卡里了
//如果tessdata这个目录放在sd卡的根目录
//那么path直接传入sd卡的目录
//eng就是英文,关于语言,按ISO 639-3标准的代码就行,具体请移步wiki
baseApi.init("tessdata文件夹的父级目录","eng");
//options是为了缩放图片,这个酌情缩放,图片小的话可以不缩放
BitmapFactory.Options options=new BitmapFactory.Options();
//缩小为原来的1/2
options.inSampleSize=2;
//bitmap,我这里是以流的形式,只要能形成Bitmap就行
Bitmap bitmap= BitmapFactory.decodeStream(instream,null,options);
instream.close();
//如果图片有Alpha值,那么最好设置一下
//设置要ocr的图片bitmap
baseApi.setImage(bitmap);
//根据Init的语言,获得ocr后的字符串
String text= baseApi.getUTF8Text();
//释放bitmap
baseApi.clear();
//如果连续ocr多张图片,这个end可以不调用,但每次ocr之后,必须调用clear来对bitmap进行释放
//释放native内存
baseApi.end();
///////////////////////////其它方法//////////////////////////////////
//获取字符边框
Pixa pixa= baseApi.getCharacters()
//同上,这个是整段文字的边框
baseApi.getRegions();
//同上,只不过这里是条线
baseApi.getTextlines();
//剩下的自己测试吧。
//转为rect数组,之后,可以很方便的在图片上框出方框
//
ArrayList rects=pixa.getBoxRects();
2、开始识别。
证件的OCR识别”就是针对证件类文档进行识别的技术,原理就是利用OCR识别技术,通过拍摄证件图像或者从相册中加载图像,过滤证件的背景底纹干扰,自动分析证件各文字进行字符切分、识别,最后将识别结果按各栏目分别导入到软件的数据库对应的字段当中。推荐安装云脉证件识别,人们就不用再依靠手工输入相关证件信息,可以实现自动识别采集。
云脉OCR证件识别一般包括身份证识别、驾照识别、行驶证识别、车牌识别、驾照副页识别、行驶证副页识别、护照识别、企业三证识别、户口本识别、港澳通行证识别,云脉SaaS平台都能下载上述识别api接口
第一款软件:FineReader 12 OCR文字识别软件
FineReader 12是专业的OCR图片文字识别软件,可以快速、准确、方便地将扫描纸质文件、PDF格式及数字或移动电话图像转换成可编辑格式——Microsoft Word、Excel、PowerPoint、可检索的PDF、HTML、DjVu等。99.8%的识别准确率即刻识别文本,复制和粘贴,搜索或编辑。
第二款软件:Nuance Omnipage Professional
要将纸张和PDF转换为您能够以最喜爱的PC应用编辑的文件,OmniPage Professional是最快捷、最准确的方式。利用OmniPage Professional,可能要花费几个小时重新录入和排版的纸张文件在数秒内即可转变为标准格式的文本文件。对于您获得的文本文件,它可进行更多的处理。不论你希望创建PDF文件的批处理、从填写的电子表格中收集数据还是出于加密目的自动控制文本区域,OmniPage都可以帮您执行这些任务。OmniPage提供转换、编辑、存储和共享所有纸张及PDF文件所需的语音和质量。它是机关工作人员、法律事务所、保险公司以及金融、政府、教育及所有医疗机构的理想选择。利用OmniPage,您可将纸张格式转换为电子版PDF格式,然后收集数据。OmniPage可对所有填写的表格进行批处理,不论是PDF还是纸张打印格式,并且创建一个数据文件,该文件可在电子数据表和数据库程序中打开。电子表格比纸张表格更加便于分发、填写和处理——OmniPage让一切变得轻而易举。
第三款软件:Simple ocr
使用该软件的时候,能够设置直接从扫描仪读取或者是通过添加页面来读取。包括jpg、tiff、bmp格式等。但是,使用该软件在读取转换的过程中,需要做出一些控制,包括文本选择、图片选择和文本忽略功能等。
当提取出文本之后,可以将文本保存为doc或者是txt格式。
第四款软件:捷速ocr文字识别软件
打开该软件时,就能够看到窗口选择,分别是“从扫描器读文件”、“从图片读文件”、“从pdf度文件”。用户按照自己的需求,来做出相对应的选择。
选择图片之后,将在软件中打开,用户在软件菜单栏中选择“纸面解析”或者是“识别”即可,这样软件将会把文字识别出来,用户可以将识别出来的文字以word文档的格式保存起来。
第五款软件:TopOCR
这是一款专门为数码相机还有带有摄像头的手机设计的,该软件有两个窗口界面,分别是原始图像窗口和文本窗口。
用户可以从左侧窗口中从相机或者是扫描仪中获得的图片转化成右侧窗口中的文本格式。转换后的文本也能够以多种格式保存起来。
第六款软件:oneNote 2007
用户可以将一个扫描件或者是保存的图片拖到oneNote,也可以使用oneNote剪辑部分屏幕或者是图片到oneNote。鼠标右击插入的图片,选择从图片中复制文本,复制下来的识别文本保存到剪切板中,我们可能黏贴到其他的文档中。
相关资料:www.abbyychina.com/xinwen/fr-ocrshibie.html
(1)首先我们打开【迅捷OCR文字识别软件】软件后,在单张识别服务区域点击【单张快速识别】选项,随后通过【添加图片】选项或者拖拉图片至区域内从而添加需要识别文字的图片。
(2)导入图片后,点击【开始识别】选项就可以识别图片中的文字啦。
(3)在文字识别结束后,点击右下方【复制】或者【导出识别结果】选项即可。
这款文字识别软件还有很多非常好用的功能,比如:翻译功能和图片转换成文档功能。
(1)当我们导入图片之后,点击【多国语言识别】选项,然后选择识别文字。最后再点击【翻译】选项就可以翻译图片中的文字了,这真是一个可以一举两得的功能!
(2)当我们想要把图片转换成其他格式文档用来储存时,我们可以点击【图片转PDF】,【图片转Word】或者【图片转Excel】选项即可转换图片格式。
不管是转换成什么格式的文档,我们在导入图片后都要选好导出格式,然后再点击【一键识别】选项。
OCR文字识别软件,个人觉得ABBYY(泰比)公司开发的ABBYY FineReader是比较好用的,这款软件可以安装的win和mac电脑上,据说mac版的功能稍微弱些。win版的功能非常强大,推荐使用企业版,不仅能OCR扫描,还支持文档对比和数字化转换。
使用FineReader PDF,编辑任何类型的PDF(包括扫描文档)几乎与使用文本编辑器一样简单。您可以编辑整个段落、更改文本格式、编辑表格单元格,甚至可以重排整个布局。
除了将文档的两个版本之间的差异导出为PDF注释之外,您现在还可以将比对结果导出为修订模式的Word文档。这使您可以轻松接受或拒绝对文档的编辑并完成文档。
参考资料:财报识别