《属性约简 一种启发式图搜索计算方法》施明辉著|(epub+azw3+mobi+pdf)电子书下载

图书名称:《属性约简 一种启发式图搜索计算方法》

【作 者】施明辉著
【丛书名】厦门大学南强丛书.第7辑
【页 数】 116
【出版社】 厦门:厦门大学出版社 , 2020
【ISBN号】978-7-5615-7929-9
【参考文献】 施明辉著. 属性约简 一种启发式图搜索计算方法. 厦门:厦门大学出版社, 2020.

图书封面:

图书目录:

《属性约简 一种启发式图搜索计算方法》内容提要:

《属性约简 一种启发式图搜索计算方法》内容试读

第一章绪论

属性约简是本书讨论的主题。属性约简旨在消除数据中的冗余属性,使数据能更好地被利用,因而在大数据分析、机器学习、决策支持等领域具有重要意义。

本章首先以通俗易懂的方式对属性约简的基本概念进行阐释,进而引出后续各章讨论的关键问题。

1.1属性约简的直观阐释

本节通过示例,通俗易懂地阐释属性约简的基本概念与意义。

1.1.1示例

首先,请看一个简单的示例,并通过此例理解属性约简所涉及的基本概念。

表1.1描述了8种动物的信息,称为一个信息系统。表中每行描述了一个动物的信息,称每行表示了一个对象(动物)。这里的每个对象(动物)有6个属性,分别是眼睛、翅膀、耳朵、四脚、家养和类别。

因此,更一般地说,每行给出了一个对象的所有属性的值。

表1.18种动物及其属性

序号

动物

眼睛

翅膀

耳朵

四脚

家养

类别

1

2

3

001

南强丛书

属性约简:一种启发式图搜索计算方法

Nangiang Congshu

续表

序号

动物

眼睛

翅膀

耳朵

四脚

家养

类别

5

6

7

8

根据属性“类别”,可将这些动物分为两类

禽类和兽类。因此,将属性

“类别”称为分类属性或决策属性。其他5个属性作为分类的条件,因而称为条件属性。表1.1中阴影部分是条件属性及其内容(属性值)。

试想:从这张表中,能否总结出关于禽、兽的分类知识?这是一个非常有意义的问题,因为如果有了禽、兽的分类知识,我们不仅能快速对这8种动物进行分类,而且对一些表中没有出现的动物也可进行禽、兽分类。

当然,我们更希望机器能自动地从复杂数据中总结出分类知识。分类是人类基本且重要的能力。没有分类能力,就不能区分物体,不会辨认人,更不知善恶美丑。同样,分类也是实现人工智能必须解决的基本问题,具有广泛的应用空间。

无论是人还是机器,从类似于表1.1的数据表中获得其内含的分类知识,

一般需要先简化这张表,以便更容易地发现其中的规律。显然,简化的前提是不改变表中内含的分类信息。那么,如何简化数据表呢?

这就引出了本书的主题一属性约简。简单地说,属性约简的目的是减少数据表中的属性,但不改变表中内含的分类信息;或者说,用尽可能少的属性来区分表中对象。

仔细观察表1.1可发现:有些属性对于分类没有作用,去掉这些属性的信息,不会改变此表中内含的分类信息。例如,表中所有动物都有“眼睛”和“耳朵”,因此属性“眼睛”和“耳朵”对于分类没有帮助,可以去掉,于是可得到简化的表1.2。表1.2可视为将表1.1经过简单预处理后得到的表,消除了明显多余的属性。因此,后文主要针对类似于表1.2这样经过简单预处理的数据表进行讨论

002

第一章绪论

表1.2初步去掉了对分类无用的属性的表

序号

动物

翅膀

四脚

家养

类别

1

2

3

4

5

6

1

8

表1.2比表1.1少用了两个条件属性,却没有丢失分类信息。根据这种简化原则,继续简化表1.2,即考虑是否可用更少的条件属性来区分表中所有动物。为此,分别考察表1.2中的3个条件属性,可得3张表,即表1.3、表1.4和表1.5。

从表1.3中可发现,仅用条件属性“翅膀”即可区分表中所有动物,并且可总结出分类知识:

规则1如果有翅膀,则是禽类,否则是兽类。

类似地,从表1.4中可发现,仅用条件属性“四脚”即可区分表中所有动物,并且可总结出分类知识:

规则2如果有四脚,则是兽类,否则是禽类。

然而,从表1.5中可发现,不能仅用条件属性“家养”区分表中所有动物,因为禽类中有的是家养的(如鸡、鸭),有的不是家养的(如鸟、鹰);兽类中也有的是家养的(如狗、马),有的不是家养的(如虎、狼)。

简单地说,一个信息系统(表)的属性约简是对于分类有必要的条件属性的集合。根据上述分析,可获得表1.1的两个属性约简:{翅膀}和{四脚}。至此,完成了对表1.1进行属性约简的任务。

表1.3考察条件属性“翅膀”

序号

动物

翅膀

类别

1

2

003

南强丛书

属性约简:一种启发式图搜索计算方法

Nangiang Congshu

续表

序号

动物

翅膀

类别

3

4

5

6

7

8

表1,4考察条件属性“四脚”

序号

动物

四脚

类别

1

2

3

4

5

6

7

8

表1.5考察条件属性“家养”

序号

动物

家养

类别

1

2

3

4

5

6

7

8

004

第一章绪论

1.1.2属性约简的思想

在本书和其他文献中,词语“属性约简”有两种使用方式。第一种方式是将“属性约简”作为动词性词组理解。例如,在语句“1.1.1节介绍了对表1.1和表1.2进行属性约简的过程”中,“属性约简”是指这样一个操作过程:针对某个数据表,对其多个属性进行约简,旨在用尽可能少的属性实现对表中所有对象进行分类。第二种方式是将“属性约简”作为名词性词组理解。例如,在语句“1.1.1节对表1.1和表1.2进行约简,所得的两个属性约简分别是{翅膀}和{四脚}”中,“属性约简”是指这样一个事物:针对某个数据表,对其多个属性进行约简的结果。“属性约简”的这两种使用方式,通常根据上下文不难区分,故本书中会兼用这两种方式。

属性约简的思想是:用尽可能少的属性对数据表中的所有对象进行分类。数据表能进行属性约简的根本原因是:数据表存在冗余属性,去掉某些冗余属性后,不会改变数据表所内含的分类信息。

属性约简一般用集合表示,该集合可能仅有一个属性,也可能有多个属性。关键是,该集合必须满足两个条件:

(1)根据该集合中所有属性的取值,可正确分类数据表中的所有对象。

(2)根据该集合的任何真子集,都不能正确分类数据表中的所有对象。例如,对于表1.1和表1.2,属性集{翅膀}和{四脚}都满足上述两个条件,因而是表1.1和表1.2的属性约简。但是,属性集{翅膀、家养〉不是属性约简,因为虽然它满足条件(1),即根据属性“翅膀”和“家养”的取值可正确分类表中所有动物(参见表1.6),但是它不满足条件(2),因为仅根据其真子集{翅膀}中的属性“翅膀”就可正确分类所有动物(参见表1.3),故其真子集{翅膀}才是属性约简。

表1.6还可进行属性约简的表

序号

动物

翅膀

家养

类别

1

3

005

南强丛书

属性约简:一种启发式图搜索计算方法

Nangiang Congshu

续表

序号

动物

翅膀

家养

类别

6

7

P

1.1.3属性约简的意义

属性约简的意义在于:①属性约简能简化数据表,从而便于从数据表中发现可用于决策、预测或分类的规律或知识;②属性约简能显示数据表中关键的属性;③属性约简是机器学习和大数据分析的关键环节。

在上述示例中,数据表经过简化后,更容易从中发现分类知识(规则1和规则2),运用这些知识,可以判断表1.1之外的动物的禽、兽归类。例如,表

1.7(a)有两种动物(鹅、猫)的条件属性内容,需要判别这两种动物的禽、兽归类。虽然这两种动物不在表1.1中,但是可以使用从表1.1中发现的分类规则来判别这两种动物的禽、兽归类。无论是用规则1还是规则2都能给出正确的判别:运用规则1可知,鹅因有翅膀,故属禽类,而猫因无翅膀,故属兽类:运用规则2可知,猫因有四脚,故属兽类,而鹅因无四脚(仅有两只脚),故属禽类。表1.7(b)展示了分类结果。

表1.7分类知识应用示例

(a)分类前

序号

动物

眼睛

翅膀

耳朵

四脚

家养

类别

9

10

(b)分类后

序号

动物

眼晴

翅膀

耳朵

四脚

家养

类别

9

10

属性约简本身并不能发现知识,但在实际应用中,由于它能简化数据表,因而对于知识发现非常重要。在实际应用中,数据表通常非常庞大。例如,在购物网站,商品的种类可达数万,每个商品的特征和销售情况又不同,可能需

006

···试读结束···

阅读剩余
THE END