ocr 识别软件 win7可以用ocr文字识别软件吗
摘要由作者通过智能技术生成

一、别软别软win7可以用ocr文字识别软件吗

当然可以啦,可用现在的字识有些ocr文字识别软件可以支持win7、win10系统的别软别软,比如说下面的可用这款软件;

下面就以win7系统为例,下载一个ocr文字识别软件;

1、字识打开百度搜索关键词“迅捷办公”,别软别软进入官网,可用里面有一个ocr文字识别软件;

2、字识该软件支持win7系统的别软别软电脑,而且识别的可用效果不比win10的差。

二、字识js怎么识别图片上的别软别软文字

思路

实现一个算法,思路是可用最重要的,而实现不过是字识把思想转化为能够运行的代码。

简单地说,要进行文本识别,自然是拿图片的数据与文字的图形数据进行对比,找到与图片数据匹配程度最高的字符。

首先,先确定图片中文本所用的字体、字号、行距等信息,打开PhotoShop,确定了字体为微软雅黑,16像素,行距为24,Base64文字的开始坐标为(8, 161)。

然后,确定要进行匹配的字库,Base64编码中可能出现的字符为26个字母大小写、10个数字、加号、斜杠,但目测在图片中没有斜杠出现,因此字库应该为:

0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ+

接着,是确定如何判断字符是否匹配,由于只需要对字型进行匹配,因此颜色值对算法并无用处,因此将其灰度化(详见百度百科),并使用01数组表示,1代表该像素点落在此字符图形上,0反之,而如何确定该某个灰度值在数组中应该表示为0还是1,这个转换公式更是算法中的关键。

最后,将字型的灰度化数据与图片中文字部分的灰度化数据进行对比,将误差最小的字型作为匹配到的字符,然后进行下一个字符的匹配,直到图片中所有字符匹配完毕为止。

递归实现

详细的思路于代码注释中,个人觉得这样结合上下文更为容易理解(注:代码应运行于服务器环境,否则会出现跨域错误,代码行数虽多,但注释就占了大半,有兴趣可以耐心看完,图片资源于上方“写在前面”)。

<!doctype html><html lang="zh-CN"><head><meta charset="UTF-8"><title>文字识别</title></head><body><canvas id="canvas" width="880" height="1500"></canvas><script type="text/javascript"> var image= new Image(); image.onload= recognition; image.src='image.jpg'; function recognition(){ //开始时间,用于计算耗时 var beginTime= new Date().getTime();//获取画布 var canvas= document.getElementById('canvas');//字符库 var letters='0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ+';//字型数据 var letterData={ };//获取context var context= canvas.getContext('2d');//设置字体、字号 context.font='16px微软雅黑';//设置文字绘制基线为文字顶端 context.textBaseline='top';//一个循环获取字符库对应的字型数据 for(var i= 0; i< letters.length;++i){ var letter= letters[i];//获取字符绘制宽度 var width= context.measureText(letter).width;//绘制白色背景,与图片背景对应 context.fillStyle='#fff'; context.fillRect(0, 0, width, 22);//绘制文字,以获取字型数据 context.fillStyle='#000'; context.fillText(letter, 0, 0);//缓存字型灰度化0-1数据 letterData[letter]={ width: width, data: getBinary(context.getImageData(0, 0, width, 22).data)}//清空该区域以获取下个字符字型数据 context.clearRect(0, 0, width, 22);}// console.log(letterData);//绘制图片 context.drawImage(this, 0, 0);//要识别的文字开始坐标 var x= beginX= 8; var y= beginY= 161;//行高 var lineHeight= 24;//递归次数 var count= 0;//结果文本 var result='';//递归开始 findLetter(beginX, beginY,'');//递归函数 function findLetter(x, y, str){ //找到结果文本,则递归结束 if(result){ return;}//递归次数自增1++ count;// console.log(str);//队列,用于储存可能匹配的字符 var queue= [];//循环匹配字符库字型数据 for(var letter in letterData){ //获取当前字符宽度 var width= letterData[letter].width;//获取该矩形区域下的灰度化0-1数据 var data= getBinary(context.getImageData(x, y, width, 22).data);//当前字符灰度化数据与当前矩形区域下灰度化数据的偏差量 var deviation= 0;//一个临时变量以确定是否到了行末 var isEmpty= true;//如果当前矩形区域已经超出图片宽度,则进行下一个字符匹配 if(x+ width> 440){ continue;}//计算偏差 for(var i= 0, l= data.length; i< l;++i){ //如果发现存在的有效像素点,则确定未到行末 if(isEmpty&& data[i]){ isEmpty= false;}//不匹配的像素点,偏差量自增1 if(data[i]!= letterData[letter].data[i]){ ++deviation;}}//由于调试时是在猎豹浏览器下进行的,而不同浏览器下的绘图API表现略有不同//考虑到用Chrome的读者应该也不少,故简单地针对Chrome对偏差进行一点手动微调//(好吧,我承认我是懒得重新调整getBinary方法的灰度化、0-1化公式=_=||)//下面这段if分支在猎豹浏览器下可以删除 if(letter=='F'|| letter=='E'){ deviation-= 6;}//如果匹配完所有17行数据,则递归结束 if(y> beginY+ lineHeight* 17){ result= str; break;}//如果已经到了行末,重置匹配坐标 if(isEmpty){ x= beginX; y+= lineHeight; str+='\n';}//如果偏差量与宽度的比值小于3,则纳入匹配队列中//这里也是算法中的关键点,怎样的偏差量可以纳入匹配队列中//刚开始是直接用绝对偏差量判断,当偏差量小于某个值的时候则匹配成功,但调试过程中发现不妥之处//字符字型较小的绝对偏差量自然也小,这样l,i等较小的字型特别容易匹配成功//因此使用偏差量与字型宽度的比值作为判断依据较为合理//而这个判断值3的确定也是难点之一,大了递归的复杂度会大为增长,小了很可能将正确的字符漏掉 if(deviation/ width< 3){ queue.push({ letter: letter, width: width, deviation: deviation});}}//如果匹配队列不为空 if(queue.length){ //对队列进行排序,同样是根据偏差量与字符宽度的比例 queue.sort(compare);// console.log(queue);//从队头开始进行下一个字符的匹配 for(var i= 0; i< queue.length&&! result;++i){ var item= queue[i];//下一步递归 findLetter(x+ item.width, y, str+ item.letter);}}else{ return false;}}//递归结束//两个匹配到的字符的比较方法,用于排序 function compare(letter1, letter2){ return letter1.deviation/ letter1.width- letter2.deviation/ letter2.width;}//图像数据的灰度化及0-1化 function getBinary(data){ var binaryData= []; for(var i= 0, l= data.length; i< l; i+= 4){ //尝试过三种方式//一种是正常的灰度化公式,无论系数如何调整都无法与绘制的文字字型数据很好地匹配// binaryData[i/ 4]=(data[i]* 0.3+ data[i+ 1]* 0.59+ data[i+ 2]* 0.11)< 90;//一种是自己是通过自己手动调整系数,结果虽然接近但总是不尽人意// binaryData[i/ 4]= data[i]< 250&& data[i+ 1]< 203&& data[i+ 2]< 203;//最后使用了平均值,结果比较理想 binaryData[i/ 4]=(data[i]+ data[i+ 1]+ data[i+ 2])/ 3< 200;} return binaryData;} console.log(result);//输出耗时 console.log(count,(new Date().getTime()- beginTime)/ 1000+' s');//将文字绘制到图片对应位置上,以方便查看提取是否正确 context.drawImage(this, this.width, 0); var textArray= result.split('\n'); for(var i= 0; i< textArray.length;++i){ context.fillText(textArray[i], this.width+ beginX, beginY+ lineHeight* i);}}</script></body></html>

运行环境

Win7 64位,i3-3220 CPU 3.30 GHz,8G内存

运行结果

yv66vgAAADIAHQoABgAPCQAQABEIABIKABMAFAcAFQcAFgEABjxpbml0PgEAAygpVgEABENvZGUBAA9MaW5lTnVtYmVyVGFibGUBAARtYWluAQAWKFtMamF2YS9sYW5nL1N0cmluZzspVgEAClNvdXJjZUZpbGUBAAlNYWluLmphdmEMAAcACAcAFwwAGAAZAQBv5paw5rWq6Laz55CD6Zif5a6e5Yqb6LaF576k77yM6Zi15a656LGq5Y2O44CC5LmF5Luw5aSn5ZCN77yM5ZGo5pel5LiA5oiY77yM6L+Y5pyb5LiN6YGX5L2Z5Yqb77yM5LiN5ZCd6LWQ5pWZ44CCBwAaDAAbABwBAARNYWluAQAQamF2YS9sYW5nL09iamVjdAEAEGphdmEvbGFuZy9TeXN0ZW0BAANvdXQBABVMamF2YS9pby9QcmludFN0cmVhbTsBABNqYXZhL2lvL1ByaW50U3RyZWFtAQAHcHJpbnRsbgEAFShMamF2YS9sYW5nL1N0cmluZzspVgAhAAUABgAAAAAAAgABAAcACAABAAkAAAAdAAEAAQAAAAUqtwABsQAAAAEACgAAAAYAAQAAAAEACQALAAwAAQAJAAAAJQACAAEAAAAJsgACEgO2AASxAAAAAQAKAAAACgACAAAAAwAIAAQAAQANAAAAAgAO715 1.984 s(猎豹)772 15.52 s(Chrome)

(递归次数谷歌只比猎豹多几十,耗时却对了十几秒,看来猎豹真的比Chrome快?)

参考资料:增值税发票ocr识别

举报/反馈

评论

发表
一、证件识别OCR意思是什么通过识别技术利用智能设备智能手机及平板电脑)通过拍照界面,指导用户拍出合格身份证图像。采用文字识别OCR)技术,自动提取身份证信息。快证通证件识别就很好,识别路特别高,速度
2024-10-15 08:32 举报
回复
一、买房子需要什么手续1、买房主要看你是否需要贷款,需要贷款就一定要提供户口本。一次性付款则只要提供本人的身份证。未婚人士或离婚人士买房,一次性付款,只需要购房者的身份证。如果贷款买房,需要贷款者本人
2024-10-15 07:48 举报
回复
一、人脸识别身份认证平台人证识别系统又名身份证人脸识别系统)区别于一般的人脸识别系统,其核心是进行身份证和人像的对比。2)产品优势云端管理可通过用户app、用户后台远程操控、管理,方便快捷唯一性无法被
2024-10-15 06:44 举报
回复
一、迅捷ocr文字识别软件电脑版好不好迅捷ocr文字识别软件电脑版是一款很是奇妙的识别工具软件,你可以在这里轻松地识别图片中的文字内容,这也是足够靠谱与高效的,你可以尝试着收获更多并处理好问题来。迅捷
2024-10-15 06:41 举报
回复
一、停车场识别记录是按车牌还是车身停车场是识别车牌不是识别车。去停车场停放的车辆同一品牌相同型号的车辆有许多而车牌是安防的没有重复的。所以识别车牌才能确定车辆。2、有没有停车场系统可以对车牌号码进行识
2024-10-15 06:34 举报
回复
查看更多评论