《模式识别核方法的理论研究与应用》徐立祥|(epub+azw3+mobi+pdf)电子书下载

图书名称:《模式识别核方法的理论研究与应用》

【作 者】徐立祥
【页 数】 97
【出版社】 中国科学技术大学出版社有限责任公司 , 2021.03
【ISBN号】978-7-312-05150-0
【参考文献】 徐立祥. 模式识别核方法的理论研究与应用. 中国科学技术大学出版社有限责任公司, 2021.03.

图书封面:

《模式识别核方法的理论研究与应用》内容提要:

《模式识别核方法的理论研究与应用》内容试读

第1章绪

1.1模式识别核方法的研究背景及意义

20世纪中期,计算机的出现以及人工智能的兴起,对人类的生产、生活和社会活动产生了非常重要的影响,并因此得到快速发展。随着计算机技术的发展,人们希望能够用计算机来代替人类的一些脑力劳动或体力劳动及扩展人类的活动领域。在20世纪60年代,模式识别(Pattern Recognition)快速发展成为一门重要的新型学科。模式识别通过计算机用数学技术方法来研究模式的自动处理和识别,它主要分为统计模式识别和结构模式识别,统计模式识别的研究对象一般可以用特征向量来表示1),例如,给定的有限数量的样本集,在已知判别函数条件下,根据一定的判别规则通过某类学习算法把多维特征空间划分为若干个区域,每一个区域对应一个类别。属于同一类别的各个模式之间可能存在一定的差异,其中

一部分可能是由模式本身所具有的随机性导致的,例如,当一个人书写同一字符时,大体形状虽然相似,但每次书写的笔迹仍是不一样的;另一部分则可能是由外部环境的性质引起的,例如,纸的质地、纸的厚度、笔尖的材料、墨水的质量等的影响。因此,在用特征向量表示这些在细节上有点差异的字符时,这些特征向量所对应的特征空间中的点也会不一样。假如在特征空间中定义了一种度量距离,从直观上看,两点之间的距离越小,它们所对应的模式相似度就越大。一般情况下,同

一类别的两个模式之间的度量距离要小于不同类别的两个模式之间的度量距离;此外,同一类别的两点间的各点所对应的模式一般也会属于同一类别

统计模式识别中的模式具有数学描述的便捷性,所以在向量特征空间里具有数学描述上的优势,它能被很好地定义并且有效地运算2)。几乎所有向量特征空间中的成熟的算法都可以很好地应用到统计模式识别领域来解决模式识别中的许多有监督学习和无监督学习。在模式识别中,结构图是一种普遍存在的数据结构,它可以完整地模拟同一系统内不同对象之间的网络结构关系,如社交网络、脑神经系统等。在大数据时代,图结构类型的数据也在迅速增长,对于图的数据挖掘的研究无论在理论方面还是在应用方面都越来越富有挑战性,在社会网络分析学、脑神经系统学、化学信息学和生物学等诸多领域③,图都因其自身结构的优势而受到密

1

模式识别核方法的理论研究与应用

切关注并得到广泛应用。

在结构模式识别中,我们常常用串、树、图这样的模式来表示具有拓扑结构的数据幻,这种模式的表达形式非常灵活。然而,结构模式识别也有不足之处,主要体现在:它缺少解决统计模式识别中无监督学习和有监督学习所需的一些相关算法,因此,我们应该尝试将统计模式识别和结构模式识别的优点进行有效互补,来弥补缺点并完成结构模式识别中的一些任务。近几年来,研究人员努力把结构模式识别与传统的统计模式识别结合在一起,去除其缺点,选取其优点,并将统计模式识别中针对向量空间的相关方法或算法拓展应用到结构化数据领域中,以实现对两种模式识别的完美统一。

模式识别中的核方法既可以应用在统计模式识别的模式学习上,也可以应用在结构模式识别的模式学习上4)。前者是向量特征,后者是结构特征,换句话说,核方法可以使得原来用于向量表示的标准算法,也可用于结构图数据,因此,对解决结构图问题来说,核方法已经成为新的工具,图核8]就是在这样的背景下应运而生的。在过去的10年里,图核得到了迅猛发展,它可以很好地完成比如卫星/航空图片解释、天气预报、字符识别、图像分类、工业产品检测、语音识别、指纹识别、蛋白质分类等识别任务,而随机游走图核6、边缘图核8)、扩散图核9四,

Weisfeiler-.Lehman子树图核2和信息熵图核3.1]等是当前最重要的几种图核方法。

1.2核方法的研究现状

对于模式识别领域中的很多问题,如果直接在高维空间进行无监督学习或有监督学习,则存在需要确定特征空间维数和非线性映射函数的具体形式以及选择参数等难题,然而采用核方法就可以有效地解决这样的问题。早在1964年,

Aizermann等16]在势函数方法的研究中就已经将核方法引入机器学习领域,但直到1992年,Vapnik等1才利用核方法成功地将线性支持向量机拓展到非线性支持向量机领域,此后,核方法技术得到充分挖掘和迅速发展。核方法是模式识别领域中应用非常广泛的一类算法,它的目标是学习一组数据,并找到这些数据之间的

一些相互关系,基于核方法的主流技术有支持向量机、核组成分分析、核投影机和核直接判别分析等,其中以基于核函数的支持向量机方法较为著名80,应用也极为广泛。模式识别核方法的技术核心是:将低维空间中线性不可分的点集,转化到高维空间中,使之变为线性可分的,例如,有两类数据,一类为x<2a或x>2b,另一类为2a

2

第1章绪

以划分得到两类数据f(x)>0和f(x)<0,从而实现了原始数据的线性分割。

直接把低维度的数据转化到高维度的空间中,然后去寻找最优的线性可分平面,在很多情况下是非常困难的。正如前面所述:首先,直接在高维度空间中计算将导致维度灾难;其次,将原始特征空间里的每一个点先转换到高维特征空间中,然后求其分割平面的最优参数是非常困难的。然而,通过核方法可以有效地回避这些困难。

核函数:定义一个核函数k(x,y)=〈Φ(x),Φ(y),其中x和y是低维度空间中的点(向量或者标量),Φ(x)是将低维度空间的点x映射到高维度空间中的映射函数,〈·,·》表示向量的内积。这里核函数k(x,y)的表达式一般不显式地写成内积的形式,即我们不会关注它在高维度空间里的具体形式,而是直接通过核函数表达式来实现。因此,在高维空间中,就可以通过低维度的点的核函数计算向量的内积了。

在模式识别核方法中,判断一个函数是否是核函数是至关重要的,事实上,只要满足默瑟(Merce)定理的函数都可以定义为核函数。

默瑟定理)任何半正定函数都可以作为核函数。

这个默瑟定理只是核函数的充分条件,并不是一个必要条件,即还存在一些不满足默瑟定理的函数也可以是核函数,如Sigmoid核函数。常见的有线性核、多项式核、高斯核、Sigmoid核、指数核、柯西核、小波核、样条核、对数核等,在这些常见核函数的基础上,还可以通过核函数的性质,如半正定性、平移不变性、对称性等,进一步构造出新的核函数,此外还可以通过核函数的一般四则运算得到新的核函数。

相似性的概念在整个模式识别领域中都有着非常重要的地位,尤其是在分类研究中更是如此。计算两个图的相似性的过程常被称为相似度度量,图的相似度度量的意义是度量某个图是否同构于另一个图。随着结构模式识别的发展,大数据带来了大量结构性的数据,如社交网络数据、脑神经系统数据等。对于这些问题的模式识别,用向量核方法似乎困难重重,不能得到理想的结果,因此,图核应运而生。

图核2,8.,131把图映射到向量特征空间,使两个图的相似性等于它们在向量特征空间中的内积。图核方法主要是计算两个图的相似程度,它必须满足以下两个数学要求1:①它必须是对称的;②它必须是半正定的。

图核:令G是一个有限的或无限的图的集合,函数k:G×G→R称为一个图核,如果存在一个希尔伯特(David Hilbert)空间(可能无限维)F和一个映射Φ:G→F,对于所有的8,g'∈G使得k(g,g)=(Φ(g),Φ(g)(·,·)表示希尔伯特空间上的内积)。

由定义可知,每个图核k都可以看成是希尔伯特空间F中的内积。因此,在计

算图之间相似性的时候,我们可以不需要定义从G到F的映射,而只需要计算图

3

模式识别核方法的理论研究与应用

之间所对应核函数的具体表达式就能够计算出相应核函数的数值,从而实现对图之间的相似性的非精准的度量。

1999年,Haussler等24)最先提出将核方法应用于具有拓扑的结构化数据的模式识别中。2002年,Kondor和Lafferty提出可以构造简单图上节点的核函数[],这个想法在2003年由Smola和Kondor进行了推广[2]。同年,Gartner首次提出了图核的概念,Gartner等6设计的直积图核能计算出在随机游走中含有相同标签的节点数,并且该图核还包含衰减系数来确保最终的直积图核函数能够收敛。这一想法很快由Borgwardt等7:29]进行了推广,他们基于成对图中具有相同长度的最短路径的数目提出了最短路径核)。此外,Costa和de Grave通过计算成对图中的同构的邻近子图定义了一个邻近子图距离核30。为了进一步提高前面所提到的图核的计算效率和模式特征表达能力,2011年Shervashidze等z☑基于WL算法给出了快速子树核。事实上,目前大多数图核都属于Haussler提出的卷积核24,31,32。卷积是一种定义图核的通用方法,这种方法主要通过比较图被分解后的所有同构子结构来定义图核。分解图的方法不同,得到的卷积图核也不同然而卷积核也存在着一些不足,如在两个图被比较的时候,图的子结构的局部特征容易被忽略;而在遇到复杂结构图或者大尺度结构图的时候,它的计算复杂度将大大增加,这些缺点都会影响图之间的相似性度量。2013年,Aziz等3基于图之间相同长度的圈数定义了回溯核,该方法可以有效克服图核计算过程中的波动情况,具有一定的稳定性,然而,回溯核不能有效地获取图的拓扑信息,并且计算的复杂度仍较高。2014年,Bai Lu,Edwin R.Hancock等基于量子物理的核密度提出了量子延森-香农(Quantum Jensen-Shannon)图核以及基于信息熵的延森-香农图核3436]。这个核是对图之间相似度的严格度量,其核矩阵的每个元素的取值范围均为[0,1],如果两个图完全相同,则它们的相似度就为1,且该图核的计算复杂度较低,运行时间较短」

图核能够快速发展起来主要有以下两个方面的原因]:首先,核方法使得原来用于向量表示的标准算法也可以适用于更复杂的结构性数据,如串、树、图等其次,核方法以一种统一的方式把线性算法拓展到了非线性算法中,从向量数据领域拓展到了结构化数据领域。理论和实验分析表明,在一定的条件下,图核方法可以比许多传统方法更好地解决比较困难的结构模式识别任务。近几年来,很多研究学者设计出了很多具有不同用途的图核[3739],但大体上可分为三类:通路核[28,40]、卷积核[24,6,47]和扩散核1:45]。常用的图核有:几何核[8,9、随机路径核[6]、最短路径核[28]、边缘化核[78、有理核[50]、散布核54,5]、快速子树核12等。图核已成为结构模式识别领域中的一个新的研究热点,它可应用于蛋白质分类、脑神经网络系统、社交网络分析、图像分类、指纹识别、生物医学等模式识别任务中569。尽管如此,目前基于图核的一些有效的分类或聚类方法还存在不足,如核矩阵的计算复杂度较高、实验精度仍较低、核函数难以准确地表达结

4

···试读结束···

阅读剩余
THE END