《Internet信息搜索方法和技巧》胡维治主编|(epub+azw3+mobi+pdf)电子书下载

图书名称:《Internet信息搜索方法和技巧》

【作 者】胡维治主编
【页 数】 280
【出版社】 北京:中国农业出版社 , 2005.12
【ISBN号】7-109-10468-0
【价 格】30.00
【分 类】因特网-基本知识-网站-简介
【参考文献】 胡维治主编. Internet信息搜索方法和技巧. 北京:中国农业出版社, 2005.12.

图书目录:

《Internet信息搜索方法和技巧》内容提要:

全书分十六章,主要内容包:搜索引擎的基本原理、网上搜索基本方法与技巧、信息资源、部分英文网站介绍、中文主要搜索引擎和信息网等。

《Internet信息搜索方法和技巧》内容试读

第1章

搜索引擎的基本原理

在进人信息时代之前,人们普遍感觉到信息的匮乏,其主要原因是当时缺乏有效的信息交流工具和方式。Internet的出现极大地丰富了人们的信息资源,但是人们仍然感到难以搜寻到所需要的信息,而Internet上却大量存在这样的信息。如何在Internet这个浩瀚的信息海洋中及时、准确地找到所需信息,“搜索引擎”便是承担这项任务的重要工具。

1.1什么是搜康引拳?

事实上,几乎每个人在上网过程中都起始于几个最主要的搜索引擎中的个。一般来说,搜索引擎网站会比其他的网站更有吸引力。

那么,搜索引擎是什么样的呢?引擎是英文“Engine'”的音译词,代表发动机。搜索引擎的英文为“Search Engine”,即信息查找的发动机。一般将其定义为“是一种用于帮助Internet用户查询信息的搜索工具,它以一定的策略在Internet中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的”。搜索引擎提供的导航服务已经成为互联网上非常重要的网络服务,搜索引擎网站也被誉为“网络门户”。搜索引擎技术因而成为计算机业界和学术界争相研究和开发的对象。自十年前Internet第一次出现搜索引擎以来,搜索技术从简单目录搜索发展到现在具有能初步理解自然语言的复杂功能,从只能搜索文字、图形和音乐到可搜索各种多媒体信息。而搜索技术的发展又催生了各类搜索网站的诞生,知名的搜索网站从国外的Lycos、Infoseek、Google、Yaoo到国内的新浪、百度、搜狐、网易等等,人们早已耳熟目详。搜索引擎是搜索引擎(Search Engine)和搜索目录(Search Directory)的统称,其实也是“个网站,只不过这样的网站专门提供信息“检索”服务,它使用特有的程序将Internet上的信息进行搜集、整理和归类,以帮助人们在浩如烟海的信息海洋中搜寻到各人所需信息。据中国电子信息产

业发展研究院(CCID)2000年调查,搜索引擎在网民上网经常参与的活

动中位列第三,仅次于电子邮件与浏览新闻,可见搜索引擎的使用越来越受到网民的欢迎。Internet上信息资源也在不断快速增加,因此搜索引擎对于那些在互联网上游弋、寻找信息的人们已经变得非常重要。

1。

Internet信息搜索方法和技5

1.2搜索引擎发展史

从Internet上出现第-一个用于自动索引匿名FTP网站文件的程序Archie诞生,到今天Internet上已有了千万个各种各样的搜索引擎,仅仅走过了短短的十几年(表1-1)。早期Internet上的搜索引擎与今天所使用的搜索引擎有所不同,早期的搜索引擎是把互联网上的资源服务器的地址收集起来,由其提供的资源类型的不同而分成不同的目录,再层层地进行分类。人们要搜寻自己想要的信息可按照其分类系统,像剥竹笋一样层层进人,到达目的地后才找到自己想要的信息。这是最原始的方式,只适用于Internet信息不多的时代。今天Internet上信息如大海恒沙,如果使用这种方式查找一个信息就会花费很长时间。

表1-1搜素引攀发展简史

年份

发生的事件

1.

1990

蒙特利尔大学学生Alan Emtage和Peter Deutsch等开发出第一个用于自动素引互联网上置名FTP网站

文件的程序Archie。

1991

1.明尼苏达大学的Mark McCahill开发出分布式文件检索和获取系统“Gopher”。

1992

l.内华达大学System Computing Services开发出一个Gopher搜素工具Veronica。.

I.3月,犹他大学Rhett Jones开发出另一个搜索Gopher的工具“Jughead”,主要通过增加关键词搜索和增强布尔运算符的功能来提升搜案能力。

1993

2.6月,Matthew Gray开发出第一个机器人程序:World Wide Web Wanderer。.

3.10月,Martin Koster创建了相当于Archie的HTTP版本ALIWEB。

1.l月,第一个可搜索和浏览Web分类目录Galaxy发布。它支持网站、Gopher和Telnet搜素。

2.2月,斯坦福大学杨致远和David Filo共同创办了超级目录索引Yahoo!。1994

3.4月,华盛顿大学Brian Pinkerton创建第一个支持搜索文件全文搜索引整:WebCrawler。

4.7月,Michael Mauldin将John Leavitt的蜘蛛程序接人到其素引程序中创建了Lycos。是第-个在搜素结果中使用网页自动摘要的搜索引攀。

1.2月,Infoseek公诸于世,同年l2月成为Netscape,.的默认搜素引孳。1995

2.6月,华盛顿大学Eric Selberg和Oren Etizioni创建第一个元搜素引攀MetaCrawler。.

3.10月,Excite搜索引檗面市。

4.12月,第一个支持自然语言搜索和实现高级搜索语法的搜索引華Alta Vista面市。

L.2月,Eric Brewer和Paul Gauthier创建Inktomi,1996

2.5月,HotBot投放市场,并声称每天可索引1000万网页。

3.10月,Web站点列表分类目录的搜素引整LookSmart面市。

1.4月,使用自然语言提问的Ask Jeeves面市。1997

2,发布点击付费的搜索引鞋GoTo发布。

3.8月,Northernlight正式现身,是第一个支持对搜素结果进行简单自动分类的搜索引攀。2

第1章搜索引擎的基本原理

(续)

年份

发生的事件

l.1月,台湾中正大学GAIS实验室创建Open Directory搜素引苹。

2.9月,斯坦擂大学的研究生Larry Page和Sergey Brin准出按网页等级评估相关度的搜素引苹Google。

1998

3.9月,具有目录列表和使用Inktomi搜索结果的MSN搜索引幸开放。

4.根据点击率排列网页相关度的Direct Hit搜索引攀发布。

l,Disney发布使用InfoSeek的搜索技术Go Network。

1999

2.Il月,NBC推出提供Internet搜素和目录服务的Web service Snap.

3.5月,挪威科技大学发布Fast(Alltheweb).,是第一个可检索2亿Web页面的引攀。

1.Ask Jeeves收购全文搜索引華Teoma。

2001

2.NBCi与GoTo全面合作。

3.l0月,GoTo更名为Overture Services,着重发展付费索引网站。

l.6月,Openfind推出多元排序(PolyRankTM)的搜索引擎。

2002

2.12月,雅虎收购Inktomi:

2003

l.2月,Overture收购FAST的搜素部门。

现代意义上的搜索引擎最早是由美国蒙特利尔大学学生Alan Emtage于1990年发明的Archie。虽然当时World Wide Web尚未出现,但网络中文件传输还是相当频繁的,而且由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便,因此Alan

Emtage想到了开发一个可以文件名查找文件的工具,于是便诞生了Archie。

Archie工作原理与现在的搜索引擎已经很接近,它依靠脚本程序自动搜索网上文件,然后对相关信息进行索引,供使用者以一定的表达式查询。由于Archie深受用户欢迎,受其启发,美国内华达System Computing Services大学于1993年开发了另一个与之非常相似的搜索工具,不过此时的搜索工具除了索引文件外,已能检索网页。

世界上第一个用于监测互联网发展规模的“机器人”程序是Matthew Gray于l993年6月开发的World Wide Web Wanderer。.电脑“机器人”(Computer Robot)是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。由于当时“机器人”一词在编程者中十分流行,因此人们将之称为“机器人”。这种专门用于检索信息的“机器人”程序像蜘蛛一样在网络间爬来爬去采集信息,所以搜索引擎的“机器人”程序就被称为“蜘蛛”程序。刚开始它只用来统计互联网上的服务器数量,后来则发展为能够检索网站域名。

与Wanderer相对应,美国麻省理工学院(MIT)的学生Martin Koster于1993年10月创建了ALIWEB,它是Archie的HTTP版本。ALIWEB不使用“机器人”程序,而是靠网站主动提交信息来建立自己的链接索引,类似于我们熟知的Yahoo。

随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难,因此在Matthew Gray的Wanderer基础上,一些编程者将传统的“蜘蛛”程序工作原理作了一些改进。其设想是,既然所有网页都可能有连向其他网站的链接,那么从跟踪一个网站的链接开始,就有可能检索整个互联网。到1993年底,一些基于此原理的搜索引擎开始涌现,最具代表性的是JumpStation、The World Wide Web Worm和Repository-Based Soft-

·3+

Internet信息稷索方法和技巧

ware Engineering(RBSE)Spider。而JumpStation和WWW Worm只是以搜索工具在数

据库中找到匹配信息的先后次序排列搜索结果,因此毫无信息关联度可言。而RBSE是第

一个在搜索结果排列中引入关键字串匹配程度概念的引擎,其中的RBSE是第一个索引

Htl文件正文的搜索引擎,也是第一个在搜索结果排列中引入关键字串匹配程度概念的引擎。

1994年1月,第一个可搜索和浏览的分类目录EINet Galaxy(Tradewave Galaxy)面市,可支持网站、Gopher和Telnet搜索。

I994年4月,斯坦福大学电机工程系的两名博士生,大卫·费罗(David Filo)和美籍华人杨致远(Gerry Yang)共同创办了超级目录索引Yahoo,最初他们是想建立自己的网络指南信息库,将其作为记录他们个人对互联网兴趣的一种方式。1995年初,Netscape公司邀请他们将其文件转移到Netscape公司提供的大型计算机上。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索,由于其数据是手工输人,所以不能真正称为搜索引擎,后来陆续使用Altavista、Inktomi、.Google提供搜索引擎服务。2002年10月,Yahoo放弃自己的网站目录默认搜索,改为默认

Google的搜索结果,成为一个真正的搜索引擎。并于2002和2003年分别收购了

Inktomi和Overture。

最早现代意义上的搜索引擊出现于1994年7月。当时Michael Mauldin将John

Leavitt的蜘蛛程序接入到其索引程序中,创建了众所周知的Lycos。这是搜索引擎史上又

一个重要进步。Ly℃os第一个在搜索结果中使用网页自动摘要,而且在当时其数据量远胜过其他搜索引擎。1999年4月,Lycos停止自己的搜索引擎,由Fast提供搜索引擎服务。另…个对搜索史影响比较大的搜索引擎是Excite,其特点是以概念搜索闻名于世。2002年5月被Infospace收购,Excite停止自己的搜索引擎,改用元搜索引擎Dogpile。互联网上第一个支持搜索文件全部文字的全文搜索引擎是WebCrawler,于l994年正

式发布。在它之前,用户只能通过URL和摘要搜索,摘要一般来自人工评论或程序自动

取正文的前lO0个字。但WebCrawler后来陆续被AOL和Excite收购。

Infoseek是另一个重要的搜索引擎,起初它只是一个不起眼的搜索引擎,但是它的友善用户界面、大量附加服务和较高搜索相关性使它声望日隆。1995年12月,其与

Netscape的联合,使它成为一个强势搜索引擎,但在2001年2月,Infoseek停止了自己的搜索引擎,开始改用Overture的搜索结果。

第一个元搜索引擎是l995年由华盛顿大学的硕士生Eric Selberg和Oren Etzioni创立的Metacrawler。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。

1995年12月,第一个支持自然语言、实现高级搜索语法的搜索引擎DEC的Alta

Vista面世,用户可以用Alta Vista搜索Newsgroups(新闻组)的内容并从互联网上获取文章,还可搜索图片名称中的文字、搜索Titles、Java applets、ActiveX objects等。其最突出的优势是它的速度。20O3年2月,Altavista被Overture收购:

Northernlight是第一个支持对搜索结果进行简单自动分类的搜索引擎,它于l997年4*

第1章搜索引擎的基本原理

8月发布,曾是拥有最大数据库的几个搜索引整中的一个,它没有停用词问题,有出色的最新新闻,由7l00多种出版物组成的特殊搜集(Special Collection)栏目,而且其高级搜索语法比较出色。2002年1月,其公共搜索引整关闭,随后被Divine收购

目前,备受人们青睐的Google在1998年10月之前只是斯坦福大学的一个小项目。到2000年前,G0ogle虽然以搜索准确性备受赞誉,但因其数据库较小,缺乏高级搜索语法,所以普及较慢。直到2000年中其数据库升级,又被Yahoo选为搜索引擎后,才被世人推崇。Google在网页等级(Pagerank)、动态摘要、网页快照、多文档格式支持、地

图、股票、词典和寻人等集成搜索、多语言支持、用户界面等功能上有较大创新,像A

tavista一样,被视为搜索引擎技术发展的新起点。

另一值得一提的搜索引整是Openfind,它是由台湾中正大学吴升教授所领导的GAIS实验室于1998年1月创立,最初只做中文搜索引擎,鼎盛时期同时为新浪、奇摩、雅虎

三大著名门户网站提供中文搜索引擎,但2000年后市场逐渐被Baidu和Google瓜分。2o02年6月,Openfind重新发布基于GAIS30 Project的Openfind搜索引擎Beta版,推出多元排序(PolyRankTM),宣布累计抓取网页35亿,开始进入英文搜索领域,此后技术升级明显加快。

1994年4月,中国科学院网首次与Internet网互联,即开始搜索引整的研究,在短短10年中,中文搜索引擎的发展速度非常快。台湾和香港加入互联网的时间较早,建立和发展中文搜索引擎的历史较长,其发展速度也很快。在中国,大陆的中文搜索引擎以天网、搜孤、网易、新浪、百度搜索等为代表;台湾的中文搜索引擎以Openfind、奇摩、盖世引擎等为代表;香港的中文搜索引擎以莱莉之窗、网上行、悠游等为代表。国际上一些大型的搜索引擎公司也纷纷加人了中文搜索引擎市场,最具有代表性的是Alta Vista、

Yahoo中文简体版和繁体版,还有Google、Excite等。

随着互联网规模的急剧膨胀,一家搜索引擎光靠自己单打独斗已无法适应目前市场需求,因此搜索引擎之间开始出现分工协作,并出现专业搜索引擎技术和搜索数据库服务提供商。如Inktomi,其本身并不是直接面向用户的搜索引擎,但向包括Overture、

LookSmart、MSN、HotBot等在内的搜索引擎提供全文网页搜索服务。百度也属于这一类,搜狐和新浪就是使用它的技术。因此,从这个意义上说,它们是搜索引擎的搜索引擎。

由于目前各家搜索引擎的标准和功能不尽相同,给使用者造成了极大的麻烦,目前各家搜索引擎也在考虑统一信息搜索标准这个问题,探讨制定一个统一的行业标准的可能性。如果此事能成为现实,今后用户使用起来就会更觉方便了。

1.3搜索引拳的工作原埋

搜索引擎的原理起源于传统的信息全文检索理论,即计算机程序通过扫描每一篇文章中的所有词,建立以词为单位的排序文件,检索程序根据检索词在每一篇文章中出现的频率和概率,对包含这些检索词的文章进行排序,最后输出排序结果(图1-1)。

·5

d

Internet信息搜索方法和技巧

信息资源

用户

WWW站点

WWW站点

新闻组站点

搜索引擎

Gopher.站点

索引器

用户界面

搜索器

FTP.站点

检索器

WWW.站点

图1-1搜索引擎基本结构及工作流程示意

1.3.1全文搜索引警功能模块的组成

现在的全文搜索引擎在外观、功能等方面表现为千差万别,但其构成一般是由搜索器、索引器、检索器和用户接口等四个部分组成。搜索器从Internet上自动搜集网页的数据,索引器将这些数据自动建立索引并将之存放在索引数据库中,检索器根据用户的查询需求快速地在索引库中检出文档,用户接口则是一个输入用户查询、显示查询结果的页面生成系统。

1)搜索器

搜索器也叫做“蜘蛛”或“机器人”,英文为robot、bot、spider或者crawler,实际上是一种基于Web的程序。可以使用C、Perl、Java等语言来编写,可以运行在Unix、

Solaris、Windows、NT、OS2和MAC等操作平台上。

搜索引擎通过搜索器在Internet上逐个访问服务器来收集信息,它通过请求Web站

点上的HTML网页来采集该HTML网页,并建立一个网站的关键字列表。人们常把搜

索器建立关键字列表的过程称为网络爬行。

为了建立一个对用户有用的字列表,搜索器需要查找很多网页页面。它从一个事先制定好的URLs列表出发,这个列表中的URLs(全球资源定位器)通常是从以往访问记录中提取出来的,特别是一些热门站点和“What'sNew”网页。从Usenet等地方检索得到的URLs也常被用作起始URLs。此外,很多搜索引擎还接受用户提交的URLs,这些URLs也会被安排在列表中供搜索器访问。搜索器访问了一个网页后,会对它进行分析,提取出新的URLs,将之加人到访问列表中,如此递归地访问Web。

它遍历指定范围内的整个Wb空间,不断从一个网页转到另一个网贡,从一个站点移动到另一个站点,将采集到的网页添加到网页数据库中。搜索器每遇到一个新的网页,都要搜索它内部的所有链接,所以从理论上讲,如果为搜索器建立一个适当的初始网页集,从这个初始网页集出发,遍历所有的链接,搜索器将能够采集到整个Wb空间的网6

···试读结束···

阅读剩余
THE END