《语义桌面搜索技术》李胜编著|(epub+azw3+mobi+pdf)电子书下载

图书名称:《语义桌面搜索技术》

【作 者】李胜编著
【页 数】 166
【出版社】 武汉:武汉理工大学出版社 , 2011.09
【ISBN号】978-7-5629-3596-4
【价 格】12.00
【分 类】文档-搜索
【参考文献】 李胜编著. 语义桌面搜索技术. 武汉:武汉理工大学出版社, 2011.09.

图书封面:

图书目录:

《语义桌面搜索技术》内容提要:

本书共分8章,分别是:绪论、语义网技术、语义桌面、基于用户行为的桌面元数据提取、桌面无结构文档的实体提取等。

《语义桌面搜索技术》内容试读

1绪

1.1语义桌面研究的背景和意义

随着计算机技术的不断普及,个人计算机用户的人数正在以惊人的速度增长。在一台普通的个人计算机中可能存储着数以千计的文档,包括大量的Office文档、E-mail、网页、程序源代码等,这些文档不论是内容、类型、大小还是功能都各不相同。我们常常遇到这样的问题:对于那些曾经下载、浏览、编辑或使用过的文档,经过一段时间以后,当我们再次需要使用时,却不知道它们存放在哪里了。如何才能有效地管理和利用这些文档,是我们需要解决的重要问题。

为解决这一问题,近年来,以Google、AskJeeves、HotBot和Microsoft!1~)为代表的各大搜索引擎公司都纷纷推出了桌面搜索工具。其基本原理为:针对本地计算机上的数据,预先建立索引表,然后通过关键宇匹配进行搜索。然而,这样的桌面搜索工具,无法找到那些关键字不匹配但本质上却存在某种关联的桌面资源,因而无法完全满足用户的需要。提高对桌面文档的搜索能力,为用户找出那些与查询有着潜在关联的桌面资源,具有十分重要的意义。

语义桌面(Semantic Desktop)技术[[s]的产生和发展为解决桌面资源的管理问题创造了契机。通过这项技术,当用户编辑、存储或使用某个文档时,语义桌面系统可以自动地为这些文档创建相应的注释,描述这些文档的相关属性。同时系统可以记录下某一文档与其他文档之间,或者文档与用户之间的联系,从而为用户进行桌面资源搜索提供帮助。

语义桌面是近年来新兴的一种桌面技术,是语义Wb技术[6~]的

语义桌面搜索技术

一个重要分支领域。它将语义Wb中的许多概念和思想引人到个人计算机技术中~16),建立描述文档的元数据,对其相关属性和上下文环境进行描述?~20)。当用户对桌面资源检索时,就可以利用这些元数据,得到许多传统检索无法得到的结果。在语义桌面环境下进行桌面资源检索,主要有两个方面的工作:一方面是桌面资源元数据的提取与保存;另一方面是基于桌面元数据的检索和排序。我们的研究工作也主要从这两个方面来展开。

目前,国内外对语义桌面环境下文档检索的研究工作都还处于起步阶段。美国和欧洲的一些商业公司和科研机构建立了一些语义桌面的实验平台,虽然取得了一定成果,但其中的一些关键技术还有待完善。目前还没有可以投人市场的成熟产品出现,相关的桌面搜索和排序算法在效率和普遍适用性方面都还有待改进[21~2]。该课题目前在国内还没有形成有规模的研究团队,相关论文发表数量也很少[261[21。

1.2桌面搜索的需求

在日常的工作中,人们往往要花大量时间去搜索硬盘驱动器,查找自己曾经使用过的文件、电子邮件以及浏览过的Wb网页,以获取所需的信息。有数字显示,某些大型企业因此而损失的时间高达每个员工每天3小时左右。

目前,以Google为代表的桌面搜索工具为用户提供了非常方便的搜索方式,它能够对Outlook和Outlook Express中的电子邮件、桌面文本文件、HTML页面、Excel和PowerPoint文件、聊天记录,以及正在Internet Explorer中浏览的页面进行全文搜索并建立索引。索引过程只在计算机空闲时启动,因此不会给正在处理的工作造成太大影响。每当有新的文件创建或发生变化时,它就会自动更新。

与一般基于浏览器的搜索方式不同,桌面搜索的特点在于:尽管部分搜索工具采用Wb的方式呈现搜索结果,但桌面搜索并不依赖于

Wb和浏览器来完成。同时,桌面搜索将搜索延伸到自己硬盘中所存

1绪论

3

储的各种文档。例如,Yahoo桌面搜索引擎[28]所支持的文档包括Email,Word,Excel,PowerPoint,PDF等多达200种格式的文本、音乐、图片和网页等。

桌面搜索将搜索业务从网络深入到用户的个人计算机中,除了能找到用户需要的网络信息外,还可以帮助用户从个人电脑海量无序的资料中轻松快速地找到自己需要的信息,包括文件、电子邮件、即时通讯信息以及网页浏览历史记录等。可以这样认为,桌面搜索是网络搜索的一种有力补充,它能帮助我们挖掘深藏在个人计算机硬盘上的信息,并且终将会突破网络与个人电脑之间的界限。

目前桌面搜索引擎主要的做法是通过预处理,对硬盘内的文档内容进行索引。简单来说,就是预先对硬盘内的各类文档进行扫描,把里面的内容编译成索引,以便用户进行搜索时快速得到结果。

然而,我们也可以看到当前桌面搜索工具存在许多不足之处。其中之一就是,无法利用现有的桌面搜索工具找到个人计算机中的不同文档资源之间的内在联系。通过传统的关键字匹配的方式来进行搜索,无法找到那些关键字不同,但在实际意义上存在某种关联的文档。根据语义桌面的设想,我们希望将语义Wb中的一些关键技术应用到桌面搜索中,从而扩展桌面搜索的功能。然而,Web资源和桌面资源之间存在许多差异。比如,Wb资源多数是以HTML或XML等结构文档或半结构文档形式出现的,Wb资源之间可以用超链接的形式关联起来,而个人计算机中存在大量无结构文档,且文档之间没有明确的关联。

鉴于这些差别,我们需要找到一系列方法,在个人计算机这个特定的环境下,利用语义Wb技术,实现并完善桌面文档搜索。

1.3本文研究的内容

本文的目标定位在解决语义桌面环境下,文档搜索技术中涉及的元数据提取与描述、文档索引、搜索以及排序算法等科学理论问题和关

4

语义桌面搜索技术

键技术。其主要内容为:研究语义桌面环境中上下文的提取和保存方案;研究桌面无结构文档的信息提取方法;研究桌面文档的语义检索模型;研究利用桌面元数据进行关联搜索和排序的方法。后文中为了简洁,称语义桌面环境下的文档关联搜索为语义桌面搜索。具体针对如下方面进行研究:

(1)语义桌面环境中上下文的提取和保存方法

桌面文档的元数据与文档的来源以及用户对文档的使用情况有关。我们通过对文档来源和用户活动的研究,将两种元数据提取的方案结合起来,提出一套较为完善的桌面元数据提取和保存方案,并以此作为语义桌面搜索的基础。

(2)桌面无结构文档的信息提取

与Wb搜索不同,个人计算机中存在大量的无结构文档。文档中包含一些具有特定意义的实体,如果能正确识别并有效提取这些实体,就能够搜索到包含某个实体的所有文档,同时找出那些包含相关实体的其他文档。本文研究一种无结构文档中的实体精确识别方法,并用本体来存储这些实体对象,从而为语义桌面搜索服务。

(3)桌面文档的语义检索模型

要对桌面文档进行检索,就需要某种信息检索模型来支持,而信息检索模型一直都是信息检索领域的重要研究课题。本文给出一种基于本体的文档语义向量空间模型,在此基础上提出了一种语义相似度计算方法。将基于该模型的语义检索与传统关键字检索做比较,查全率和查准率都有很大提高。

(4)语义桌面的排序算法

排序是搜索活动的一个重要步骤,对搜索结果进行排序,不但直接影响到本次搜索的服务质量,而且对将来的搜索活动也会产生重要影响。本文通过研究现有Wb排序算法和数据库系统中的权威传递理论,给出一种语义桌面搜索排序算法,使排序结果更加合理,更能反映桌面搜索结果的重要程度。

1绪

5

1.4文章的组织结构

本文的后续章节按照如下方式进行组织:

第2章介绍语义网的基本理论,包括语义网的概念、产生发展历程、基本技术、语义检索技术、语义搜索模型等。

第3章对语义桌面环境下文档关联搜索技术的基本方法和理论进行比较深人的分析,从理论框架、发展历程,到研究现状,都做了详细的论述。此外,对现有的元数据提取方案和检索算法进行了分析,最后对现有语义桌面搜索系统中存在的问题做了总结,指出了需要解决的问题和研究方向。

进行语义桌面文档搜索的一个重要前提就是提取桌面元数据,因此本文第4章首先介绍现有的桌面元数据提取方式,然后研究如何从桌面上下文和用户动态行为中提取并保存语义元数据,并提出一种基于用户行为的上下文探测方法。最后,描述了如何创建元数据生成器来实现桌面元数据的提取。

桌面文档与Wb文档的一个重要区别就是桌面文档中包含大量没有超链接的无结构文档。因此,第5章专门就这类文档中的实体提取技术进行研究。首先介绍信息提取技术的基本概念、分类和方法,然后描述无结构文档的实体提取特点、方法和研究现状。接下来,设计出

一种基于本体的无结构文档实体识别和提取方法,并建立了一个实验数据集,对方法的效果进行验证。

第6章给出一种基于本体的语义向量空问模型,并与传统的检索模型做了比较,从语义的角度解决传统模型中一些无法克服的问题,如基于统计的方法计算项权重的缺陷、不同关键字之间的语义关系体现,以及文档语义向量的表示和相似度计算等,并通过实验表明了本文方法的有效性。

对搜索的结果进行排序,是语义桌面搜索的重要组成部分。排序算法的优劣直接影响到搜索的效果。第7章首先对以往的搜索排序方

6

语义桌面搜索技术

法做简要的分析和总结,然后将模式图理论与PageRank算法相结合,提出一种适合语义桌面环境的检索结果排序方法。实验表明,该方法可将重要程度高的结果优先返回,并能有效地体现出文档对象之间的关联关系。

第8章总结了全文并做出了对今后工作的展望。

···试读结束···

阅读剩余
THE END