您现在的位置:机电论文网>> 自动识别技术>> 正文内容

一类基于统计理论的神经网络模式识别方法

作者: 来源: 发布时间:2006/6/19 12:27:36  点击数:7692

【关键词】主成分分析,神经网络,模式识别

【论文摘要】本文针对用人工神经网络进行模式识别时样本特征指标过多的问题,提出用统计理论的主成分分析方法对数据进行预处理,再选出几个主成分作为神经网络的输入节点,从而极大地简化人工神经网络,提高了模式识别的效果。

罗中良1  麦宜佳1  施仁2

(1.佛山科学技术学院自动化系,佛山528000;2.西安交通大学自动控制系,西安710049) 

1 问题的提出  
  利用专家经验、专业知识对待识别的对象/目标罗列出样本特征指标(自变量),以此和目标库中的标准目标参数进行比较或运算来确定目标的类型,这是模式识别的一般方法。其比较或运算往往是非线性的,而神经网络识别是较好的非线性处理的智能化方法 。但是对象/目标的广泛和多样性使得对象的特征指标过多,因而在神经网络模式识别时输入节点数过大,这样不但计算量大,而且识别准确度也会下降。所以在用神经网络进行模式识别,且特征指标太多时,应该对数据进行预处理。下面提出一种基于统计理论的简化数据的预处理方法,即对样本数据进行主成分分析方法。
2 主成分分析  
  减少神经网络的输入节点数,同时保留专业知识提出的特征指标信息,是提高神经网络识别效率的关键。本文提出一种基于统计理论的方法———样本的主成分分析法。
  主成分分析是将多个指标化为少数指标的一种统计方法。设有n个样品,每个样品测得p个指标,共有np个数据,当p过大时,指标之间往往互有影响,如何从p个指标中去寻找出很少几个综合性的指标,利用对少数指标的分析达到模式识别的目的。
             
             
    称γ1′x,γ2′x…γr′x分别为x的第一主成分,第二主成分,...第r 主成分,易见它们是相互独立,协方差阵的极大似然估计为仍设其特征
               
(λ1,λ2,…λr),也即主成分的协方差阵Y′Y是一个对角阵,主对角元素是主成分的样本方差。通常不用全部的主成分,只用其中头几个,一般说来,当(λ1+λ2+…+λl)/trV≥85%时,这头l个就足够了。可以证明这时的方差要比未经主成分分析前要小[1],因而可以提高模式识别的效果。
3 用神经网络进行模式识别  
  神经网络的BP模型是近年来应用最广泛的网络之一(见图3—1)。其标准的学习算法是一种简单的最速下降静态寻优算法,即:
                   
其中η是学习速率,α是惯性因子。
  当BP网络用于模式识别时,输入向量x=(x1,x2,……xp)T为样本的p个特征指标。当p过大时,指标之间有相互影响,且BP网络变得很复杂,收敛速度很慢,易发生识别错误,所以可以用上面介绍的主成分分析选出前面几个主成分作为输入,从而简化了网络。设出了n个样本,对每种模式定出一个目标输出作为属于该模式的样本的目标输出。我们先随机地选鰉个样本作为学习教材。经训练后可建立模式识别的智能专家系统。为了检验所建立专家系统可将剩下的n-m个样本输入专家系统看是否能作出正确的模式识别,若不能,则要重新调节学习速率η、惯性因子α和隐蔽节点数。
                    
4 模式识别实例  
  下面以神经网络对茶叶进行等级识别为例,说明经过对样本数据进行主成分分析,可以简化神经网络的输入,从而大大提高神经网络的学习速度和等级识别效率,具有很高的实用性。文献[2]的表4—1是商业部颁布的4种炒青绿茶标准样(1—6级)和6个市售样的理化数据。茶叶的等级由其十个特征指标决定。本文将文献[2]中表4—1的30组样本数据的前24个作为神经网络的学习教材,后6个作为预测样本,并将学习教材标准化。采用神经网络对茶叶品质等级进行识别时,将茶叶的10个特征指标都作为神经网络的输入,将样品6个等级的目标输出依次定为: 
                               
    本文选择BP网络的隐蔽层含14个节点,经过学习后建立了茶叶等级分类预测的智能专家系统。然后对后6个市售样品进行检测得到表4—1结果。
     
    根据神经网络对6个市售样本识别的输出,可知神经网络的识别结果由表4—1一行中的最大值决定,最大值与次大值的差值大小可以衡量识别结果的好坏。由表4—1看出 ,虽然BP网络能够正确地识别茶叶的等级,但是识别的效果很差,一旦测量误差高了一点 ,第2、4市售样品的等级就很可能识别错误。
  下面通过对文献[2]的表4—1的前24个标准样品数据用上面讨论的主成分分析方法分析,得其主成分如表4—2。
      
    可以看出只需取前3个主成分(因总比例大于85%),且对应的3个特征向量为:(-0.309,-0.367,-0.310,0.357,-0.351,0.301,-0.358,-0.248,-0.116,0.340),(-0.459,0.201,0.378,0.250,0.000,0.000,0.207,-0.434,0.555,0.000),(0.134,-0.127,0.000,0.000,0.201,0.546,0.000,0.452,0.564,0.307)由此可以求出训练样本的前3个主成分,以前3个主成分作为BP网络的输入,重新建立茶叶等级识别预测的智能专家系统,在对文献[2]的表4-1中的后6个市售样品进行等级识别,得到如下结果(表4-3)。
         
    通过表4—1和表4—3的比较可以清楚地看出改进后的BP模型对茶叶等级识别有着明显的改进。其实,当识别都正确时,可以定义一个量M来衡量神经网络识别的好坏。由于目标输出已标准化,所以可以看出将M定义为最大数减去次大数比较合理。于是第一个专家系统得出的M为:
    0.621,0.070,0.291,0.106,0.106,0.814
    第二个专家系统得出的M为:
    0.802,0.784,0.800,0.734,0.670,0.861
  可以看出第二个专家系统的M值显著地大于第一个专家系统的M值,这样就可以更加清楚地看出主成分分析对模式识别的改进程度。又由于神经网络的输入节点数由10个减少为3个,故收敛速度大大提高。
5 结论  
  本文提出了一种基于统计理论的神经网络模式识别新方法。在模式识别过程中样本的特征指标往往过多,这使得神经网络识别速度和准确度降低。本文提出通过统计理论的方法,在不丢失信息的前提下将多个指标综合成少数几个指标,从而简化神经网络的输入,提高识别效果。并以茶叶的品质等级识别为例,说明此方法的有效实用。


  [参考文献]


[1]张尧庭,方开泰.多元统计分析引论[M].北京:科学出版社,1997,322-328.
[2]罗中良,施仁.神经网络用于产品品质鉴定的新方法[J].兰州大学学报,2001 .No.4 55-59.

更多
字体:【】-【】-【】【关闭此页

上一篇:多功能汽车底盘测功机'   下一篇:低阶模型的HMRAC方案及应用'


特别声明:机电之家(http://www.jdzj.com )所共享的机电类资料,机电论文、机电类文章、机电企业类管理制度、机电类软件都来自网上收集,其版权归作者本人所有,如果有任何侵犯您权益的地方,请联系我们,我们将马上进行处理。购买的论文都出自原创,保证作者的原创的版权的转让,任何纠纷由法律解决。