《利用搜索引擎检索现有技术》国际知识产权局专利审查协作中心编写;魏保志主编|(epub+azw3+mobi+pdf)电子书下载

图书名称:《利用搜索引擎检索现有技术》

【作 者】国际知识产权局专利审查协作中心编写;魏保志主编
【页 数】 196
【出版社】 北京:知识产权出版社 , 2011.04
【ISBN号】978-7-5130-0398-8
【价 格】36.00
【分 类】互联网络-情报检索
【参考文献】 国际知识产权局专利审查协作中心编写;魏保志主编. 利用搜索引擎检索现有技术. 北京:知识产权出版社, 2011.04.

图书封面:

图书目录:

《利用搜索引擎检索现有技术》内容提要:

《利用搜索引擎检索现有技术》结合检索现有技术的特点,阐述了搜索引擎的应用技巧和实践:首先,介绍了综合搜索引擎及相关辅助-工具的应用;其次,分类讲解了专利、学术、图书等专题搜索引擎;最后,介绍了在搜索引擎中建立检索域、进行追踪检索和特定技术内容检索等检索策略。 《利用搜索引擎检索现有技术》由国家知识产权局专利审查协作中心经验丰富的审查员编写而成,汇集了编写组多年的检索实践经验,同时结合了搜索引擎易于获得、技术先进的优点,对于提高广大读者的现有技术检索质量有一定的现实意义。 读者对象:专利审查员、专利

《利用搜索引擎检索现有技术》内容试读

第一章搜索引擎概述

随着互联网的普及与发展,一方面,越来越多的信息由传统的纸件存储方式逐渐向电子化、数字化转变,互联网的信息搜索日益成为人们获取信息的主要手段;另一方面,随着计算机搜索技术的发展,信息搜索变得更方便、结果更可靠,人们也越来越依赖互联网的搜索。互联网搜索技术的集大成者便是搜索引擎,它是互联网搜索的重要工具,并随着网络的发展不断自我完善。

一、搜索引擎的概念

搜索引擎通常指的是互联网上专门提供查询服务的一类网站,用于搜索万维网(www)或文件服务器(TP)的信息,将搜索得到的由网页、图像、声音等文件组成的结果以列表的形式显示,某些搜索引擎还具有数据挖掘、算法规则、基于用户输入的混合算法等功能·。

上述定义集中反映了搜索引擎发展过程中的一段非常重要的历史。在万维网出现之前,基于分散的文件服务器的搜索工具,如Archie、Gopher等就已经出现,虽然它们只能通过文件名的形式进行搜索,但奠定了搜索引擎的基本工作原理,可称为早期的搜索引擎;另一方面,上述定义也反映了搜索引擎同时担负着网络信息资源的管理功能,需随时自动更新数据源、记录网页地址、建立索引结构等,以便迅速地响应用户的检索需求。

二、搜索引擎的种类

超文本传输协议(HyperText Transfer Protocol,HTTP)访问Web技术的日臻成熟,更多分散的文件服务器被连接起来,文件也不再局限于已有的格式,且各种数据通过互联网共享连接起来,如何在多样化的资源中准确地查询到有用的信

http://en.wikipedia.org/wiki/Web_search_engine.

2

利用搜索引黎检索现有技术

息,将更加依赖搜索引擎。此时以Yahoo0为代表的搜索引擎建立了可搜索并可浏览的人工目录分类,它的出现适应了互联网网页数量以及用户访问量增长的趋势,且不再拘泥于特定的网络,而顺应互联网(或万维网)广泛应用后的现代搜索引擎,这种基于分类目录导航系统的检索方式,也被大多数人称为第一代搜索引擎●。目录式搜索引擎除Yahoo外,尚有Open Directory、LookSmart0等。搜索引擎发展的阶段划分各有不同,但通常均以Yahoo与Google的出现与成熟作为标志。例如,有人认为第二代搜索引擎是以Google为代表的关键词和特殊算法的搜索引擎●,也有人认为Google是继Archie、Yahoo等之后的第三代搜索引擎①。但无论如何划分,依靠机器抓取并建立在超链接分析基础上大规模网页搜索的Google,将搜索结果的准确性与互联网信息的迅猛增长同步起来,配合其排序、多语言支持等功能,Google被公认是目前世界上最流行的搜索引擎。与

Google类似的搜索引擎还有Lycos●、OpenFind、Bing”等。

上述以Yahoo、Google为代表的搜索引擎,按照工作方式的不同,又被相应地分为目录索引类搜索引擎和全文搜索引擎,另外还有一类为基于多个搜索引擎同时搜索后的结果,称为元搜索,例如Infospace①、dogpile等。

另外,根据搜索引擎的定位和其搜索范围,搜索引擎可以分为综合搜索引擎和各种专门搜索引擎。综合搜索引擎面向一般目的的检索,其检索结果包括互联网上的各种信息,一般不对检索范围作限定;但专门搜索引擎面向特殊目的的检索,常将检索范围限制在某一类信息中。以Goog为例,其包括作为综合搜索引擎的网页搜索(Google Web Search),以及专利搜索引擎(Google Patents)、学术搜索引擎(Google Scholar)、图书搜索引擎(Google Books)等多个专门搜索引擎。互联网上的信息浩瀚复杂,搜索引擎也纷繁多样,各种搜索引擎的搜索技术、网页索引页面数量各不相同,使用时应当注意选择。目前互联网上除上面已提及的搜索引擎外,按中英文资源的搜索重点不同,还有以下比较常用的综合搜索引

0 http://www.yahoo.com/.

)包瑞.浅析第三代搜索引攀的发展[J]·晋图学刊,2010(4):20-22

http://www.dmoz.org/.0 http://www.looksmart.com/

●包瑞.浅析第三代搜索引攀的发展[J].晋图学刊,2010(4):20-22,

●李悦.搜索引攀技术的产生与发展综述[J]·福建电脑,2010(5):34-35.

http://www.lycos.com/.http://www.openfind.com/.http://www.bing.com/.

①包瑞.浅析第三代搜案引攀的发展[J].晋图学刊,2010(4):20-22

http://www.infospace.com/.http://www.dogpile.com/.

第一章搜案引攀概述

3

擎(见表1-1)。

表1-1其他较常用的中英文综合搜索引整

序号

搜索引擎

网址

类型

1

搜狗

http://www.sogou.com/

中文搜索引擎

3

新浪爱问

http://iask.com/

中文搜索引擎

3

网易有道

http://www.youdao.com/

中文搜索引擎

百度

http://www.baidu.com

中文搜索引擎

alltheweb

http://www.alltheweb.com

英文搜索引擎

6

AOL

http://www.aol.com/

英文搜索引擎

>

altavista

http://www.altavista.com

英文搜索引擎

gigablast

http://www.gigablast.com

英文搜索引擎

三、搜索引擎的最新发展

互联网信息量的继续增长以及用户对搜索结果准确性要求的日益提高,搜索引擎的发展也随之朝智能化、个性化等多方向发展。在智能化方面,为使用户搜索意图与计算机理解之间趋于一致,出现了语义搜索引擎,例如Kngine·、

Swoogle●等;在个性化方面,信息将被进一步细分并建立独立的搜索引擎,例如针对图像的搜索引擎、学术的搜索引擎、专利的搜索引擎等。

(一)搜索趋于智能化

互联网上信息量逐渐增多,搜索的覆盖面也就越大,对返回结果的精度要求就越高,前面所述的以Google为代表的全文搜索引擎,虽然采用了网页排序算法等搜索技术大大地提高了检索的效率,但均以关键词的匹配为基础,同样无法回避一词多义、字符单纯匹配、缺少语义描述等缺陷,加上全文搜索的返回结果较多,搜索的准确性日益受到信息量“爆发式”增长所带来的挑战,因此人们日益重视搜索引擎的智能化程度。

搜索引擎的智能化将着眼于增强计算机的理解技术,加强计算机与用户之间的双向性沟通,使计算机更好地理解用户的搜索意图,并在搜索过程中以知识进行检索,而不再单纯以关键词的索引匹配方式进行检索。这种智能化搜索技术将

0 http://www.kngine.com/.http://swoogle.umbc.edu/.

利用搜索引攀检索现有技术

高度依赖自然语言的处理技术和人工智能技术·,其中需要运用关键词的分词、同义词、反义词、短语识别、多语言翻译等技术来实现对用户检索意图的真正理解,另一方面,更重要的是需要进一步赋予搜索的内容(例如wb网页)更多的语义信息。

互联网(或万维网)作为人们当前进行检索的重要手段之一,如何赋予互联网中的数据信息语义条件,形成具有良好定义的语义网●,帮助人们高效快捷地获取互联网中的信息,成为语义智能化检索的研发先锋。语义网是相对下一代网络搜索引擎而言的智能网络,开发语义网主要是认为目前基于超文本标记语言(Hyper Test Markup Language,HTML)的互联网,缺少对检索文本中信息的描述,而语义网要实现的目的是,增加互联网的语义信息,提高机器的可读性,不仅能够理解用户的检索意图,而且计算机之间能够进行有意图的沟通。

(二)搜索趋于个性化

个性化是指搜索引擎更注重搜索服务的个性化,针对用户的个性化需求进行定制并理解,实现搜索引擎的个性化模式,目的在于更有效地区分搜索对象,并准确地理解个性用户的搜索意图,更准确地返回搜索的结果。

目前搜索引擎的个性化研究主要集中于主题爬虫的个性化和查询改进等方面。基于查询改进的用户反馈技术是研究的重点,例如建立“学习型反馈技术”·使搜索引擎更好地理解特定用户的搜索喜好和意图,将搜索结果按照学习理解后的相似度高低重新排序,优先返回高相似度的网页内容,以提高检索效率。

未来搜索引擎也将趋于专业化。专业化的搜索引擎将某一专题专门收录,不但减小了综合性搜索引擎的搜索压力,而且也为搜索引擎的个性化服务创造了有利条件。根据专业化搜索引擎的跟踪、分析、学习为用户定制更全面的专业搜索服务,使特定的用户与计算机之间的理解更加趋于一致,将极大地提高检索效率,这是今后发展的重要方向。

(三)搜索趋于多语言交叉

多语言交叉搜索在于跨语言信息搜索,指用户以一种语言(通常是自己的母

0兰蔚巍,李海生,浅淡智能搜索引攀技术及其发展趋势[J]·计算机与网络,2010:

256.

©崔亚军.语义网的起源与发展.机械管理开发[J],2009,24(5):186-187.

®刘建生,周志辉.个性化搜索引擎综述·计算机与数字工程[J],2010(10):80-

81,94.

●江婕,李建民,曾勃炜.基于用户反馈的个性化搜索引攀的研究[J]·计算机与现代

化,2010(6):116-118,121.

第一章搜索引攀概述

语)提问,检出另一种或几种语言描述的信息资源的信息检索技术和方法。跨语言信息检索中,用户用以表达自己的信息需求、构造检索提问式的语言称为源语言(Source Language),被检索的信息资源所使用的语言称为目标语言(Target

Language)●。

近几年来,随着计算机技术的发展,机器翻译的技术也迅速发展。从传统的基于规则的机器翻译扩展到了基于实例或模版的机器翻译、统计机器翻译等,尤其是近年来语言学和人工智能技术的发展,以语义描述或以知识描述为特征的智能机器翻译系统正逐步成为研究的热点●。

搜索引擎对多种语言数据进行跨语言的交叉搜索,不仅能够返回用户搜索的所有语言的结果,而且随着机器翻译的进一步成熟,还能够进一步将返回的所有语言结果以母语的形式显示。虽然该技术目前还处于初步研究阶段,但其不仅符合搜索技术的发展方向,而且基于搜索引擎在未来语义智能化等领域的突破,跨语言交又搜索必将成为现实。

综上,随着搜索引擎技术的进一步发展,以语义搜索为核心的技术推动了个性化、专业化、交叉语言搜索技术的发展,相信随着研究的进一步深人,在不久的将来,现存的语言障碍和搜索效率低下等缺陷必将逐渐被克服,不同层次的用户有望借助于智能化的搜索引擎实现专业化检索。

四、利用搜索引擎检索现有技术概述

现有技术是技术创新的基础,充分检索和合理利用现有技术是提升创新等级和降低创新成本的重要途径。专利制度是推动技术创新的有力保证,对于其中的专利审查环节,通过检索获得相关的现有技术还是判断发明或者实用新型是否具备新颖性或创造性的基础。

目前,现有技术的检索通常依赖于专门的检索数据库,这些数据库使用的相关检索技术虽较成熟但略显陈旧,已成为制约检索质量进一步提高的因素。近年来搜索引擎发展迅速,传统搜索引擎不断扩展其功能,应用了大量先进的检索技术和理念,同时还出现了大量新的搜索引擎。为了进一步改进现有技术的检索,有必要探讨应用搜索引擎检索现有技术的可行性。以下综合评价搜索引擎的常规标准,从覆盖范围、查全率、查准率、响应时间、用户负担、结果输出方式等方

0曹红兵.跨语言信息检索在Internet搜索引攀中的应用[J]·江西图书馆学刊,2006,36(3):68-70.

。周胜生,王扬平.专利文献计算机检索技术的最新发展[J]·图书情报工作,2010

(18):81-84.

···试读结束···

阅读剩余
THE END