基于模型训练方法的文字识别技术研究

(整期优先)网络出版时间:2019-05-15
/ 2

基于模型训练方法的文字识别技术研究

罗金满

广东电网有限责任公司东莞供电局523000

摘要:文字识别就是利用计算机自动识别字符的技术,文字识别是模式识别应用的一个重要领域。主要是在生产和生活中,人们要处理大量的文字、报表和文本。文字识别可以减轻人们的劳动,并且提高处理效率,在50年代的时候开始探讨一般文字识别方法,研制出了光学字符识别器。到了60年代研制出了采用磁性墨水和特殊字体的实用机器。而到60年代后期时候,出现了多种字体和手写体文字识别机,这时候的识别精准度和机器性能都有了一定的提高。

关键词:背景;方法;内容及步骤

一、文字识别包括:

目前文字识别一般包括文字信息的采集、信息的分析与处理、信息的分类判别等几个部分。

1、文字信息的采集:就是要把纸面上的文字灰度变换成电信号输入到计算机中去。而信息采集是由文字识别机的送纸机构和光电变换装置来实现,有飞点扫描、摄像机、光敏元件和激光扫描等光电变换装置。

2、信息分析和处理:就是对变换后的电信号消除各种印刷质量、纸质中存在的均匀性和污点或书写工具等因素所造成的噪音和干扰,进而对大小、偏转、浓淡、粗细等进行正规化处理。

3、信息的分类判别:就是对去掉噪声从而正规化后的文字信息进行分类判别,从而输出识别结果。

二、背景:

传统的文字识别方法是需要人工设计,这中方法需要大量专家知识。而现在的深度学习方法是一种特征学习,我们只是需要提供大量训练样本,通过这些模型就会自动学习到鲁棒的特征,从而表达。

还有就是常见的卷积神经网络卷积层一般不超过5层。这相对于少数几个卷积层,使用更多的卷积层增加了问题的难度。而传统的解决思路是直接随机初始化网络权值,然后再进行训练。可是当卷积层超过5层的时候,直接随机初始化网络权值会导致无法训练。

三、文字识别方法

文字识别就是指用计算机字典、高速地识别纸张上的数字、英文符号或汉字。文字识别实际上就是在解决文字的分类问题,差不多都是通过特征及特征匹配的方法进行处理的。特征判别是通过文字类别的共同规则进行分类判别。文字识别不需要利用各种文字的具体知识,只要根据特征抽取的程度分解到地使用结构分析的办法完成字符的识别。匹配的方法则是根据文字的知识采取按形式匹配的方法进行。只抽出部分图像与字典进行匹配。然后根据各部分形状及相对位置关系,与保存在字典中的知识进行对照,从而识别出每一个具体的文字。

1、模板匹配法?:就是将输入的文字与给定的各类别标准文字进行相关匹配,从而计算输入文字与各模板之间的相似性程度,然后取得相似度最大的类别作为识别结果。模板匹配方法的缺点是当被识别类别数增加时,标准文字模板的数量也随之增加。而这样就会增加机器的存储容量,同时也会降低识别的正确率,所以这种方式适用于识别固定字型的印刷体文字。模板匹配方法的优点是用整个文字进行相似度计算,这样就会对文字的缺损、边缘噪声等具有较强的适应能力。

2、几何特征抽取法:就是抽取文字的一些几何特征,比如文字的端点、分叉点、凹凸部分以及水平、垂直、倾斜等各方向的线段、闭合环路等,根据这些特征的位置和相互关系进行逻辑组合判断,获得识别结果。几何特征抽取法的识别方式利用结构信息,同时也适用于手写体文字那样变型较大的文字。

3、统计模式识别法:统计模式识别就是在于确定已知样本所属的类别。统计模式识别法是以数学上的决策理论为依据,并根据此理论建立了统计学识别模型。是对研究的图像进行大量统计分析,从而找出规律性认识。统计模式的识别框图上半部分是识别部分,就是对未知类别的图像进行分类;下半部分是分析部分,就是对已知类别的图像样本制定出规则,使对未知类别的图像能够进行分类。由于所输入的图像需要进行数字化,这就会产生误差;光照不均匀,噪声干扰会损坏图像的质量等。所有这些都需要进行预处理。经过预处理的图像进行特征提取,最后进行判决分类,得到识别结果。为了进行分类,必须有图像样本。框图右下角是学习训练部分。当用训练图像样本根据某些准则制定出一些判决规则后,再对这些训练样本逐个进行检测,观察是否有误差,如果有的话,再进一步改进判决规则,直到比较满意为止。

四、介绍

这是一种基于深度学习的文字识别方法,而设计中更深的是多层卷积神经网络结构,它是把每一个字符作为一个相应的类别;然后在采用反向传播算法训练卷积神经网络,这是用来识别单一字符的,从而形成有监督地最小化的网络目标函数,从而得到字符识别模型;最后就是根据已经识别出来的字符,然后采用维特比算法,在从词典中找出最有可能的词语。我们在测试的时候,首先给定一个输入,因为需要先进行滑动窗口扫描获得备选字符,然后再从备选字符中找出最可能的词语。这种方法利用更深的卷积神经网络来学习文字特征,这对于文字的颜色、大小、光照、模糊具有鲁棒性,使得字符识别、词语识别能够保持较高的准确率。

五、内容及步骤

现在为了解决技术存在的空缺,从而提供一种基于深度学习的字符识别模型的训练方法,然后利用训练得到的字符识别模型对文字进行识别。

深度学习的字符识别模型的训练方法的步骤:

1、需要构建多层卷积神经网络的结构,这就包括设置网络的层数、卷积窗大小和每层的节点数等。就是定义一个输出层来输出字符分类的结果,而每个类别标签定义就会有一个输出结点。

2、就是采用传统的误差反向的传播算法训练网络,从而得到字符识别模型,这里的目标函数就是为了输入图像的真实标签和模型预测结果的交叉熵。

3、我们也需要增加卷积层的层数从而得到新的网络结构,然后得到模型初始化网络权重。

4、重复步骤2和3,然后逐渐增加卷积层层数并进行训练,直到识别正确率不再提高为止,最终得到的字符识别模型。

5、我们使用维特比算法,就是为了求出每个词语对应的分数,分数最高的就是我们识别出来的词语。

6、还需要对测试图像采用扫描窗口进行测试,从给定词典中找出最有可能的词语。

这个方法就是把字符识别问题当成一个多类别分类问题,这个方法可以学习到文字的鲁棒特征,不在用人工设计,并且后续处理还可以有效地将备选字符识别成词语,这样就能够更广泛地应用于自然场景下的文字识别了。这个方法利用更深的卷积神经网络来学习文字特征,这对于文字的颜色、大小、光照、模糊具有鲁棒性,字符识别和词语识别能够保持较高的准确率。

六、应用领域

文字识别可应用于许多领域,比如阅读、翻译、文献资料的检索、信件和包裹的分拣、稿件的编辑和校对、大量统计报表和卡片的汇总与分析、银行支票的处理、商品发票的统计汇总、商品编码的识别、商品仓库的管理,以及水、电、煤气、房租、人身保险等费用的征收业务中的大量信用卡片的自动处理和办公室打字员工作的局部自动化等。以及文档检索,各类证件识别,方便用户快速录入信息,文字识别的使用大大提高了各行各业的工作效率。

结论:随着我国信息化建设的全面开展,文字识别技术的诞生,从实验室技术到产品的转变,目前已经进步到成熟阶段。文字识别技术在国内各行各业的应用有着广阔的空间。随着国家信息化建设进入内容建设阶段,文字识别技术开创了一个全新的行业应用局面。

参考文献:

[1]?陈胜勇,刘盛等.?基于OpenCV?的计算机视觉技术实现[M].?北京:科学出版社,2008.

[2]?汪益民.?基于OCR的书写文字识别系统设计.?安徽农业大学?2007

[3]?沈艳.?基于CMAC神经网络的手写字体识别技术.?哈尔滨工程大学.?2011

[4]?颜伟,李巧月.基于OpenCV?的高斯平滑和自适应阈值化算法研究?中国矿业大学2010