《Internet搜索引擎指南》陆吉林,杨建芳编著|(epub+azw3+mobi+pdf)电子书下载

图书名称:《Internet搜索引擎指南》

【作 者】陆吉林,杨建芳编著
【页 数】 116
【出版社】 上海:复旦大学出版社 , 1999.10
【ISBN号】7-309-02356-0
【价 格】12
【分 类】互连网络-地址 地址-互连网络
【参考文献】 陆吉林,杨建芳编著. Internet搜索引擎指南. 上海:复旦大学出版社, 1999.10.

图书目录:

《Internet搜索引擎指南》内容提要:

全书对搜索引擎一般使用方法作了全面介绍,重点是18种常用引擎的使用与评价。

《Internet搜索引擎指南》内容试读

第一章搜索引擎基础知识

1.1搜索引擎概述

Internet的迅速发展和信息量的急剧增长,导致各种网络信息检索工具应运而生,被称为网络之门(Web Portal)的搜索引整(Search Engine)就是其中之一。Yahoo!的成功和华裔学生杨致远的传奇故事,使得形形色色的搜索引擎网站层出不穷,现已发展成为Internet的一个新兴产业。

搜索引擎通常由搜索器(又称作网络蜘蛛一Web Spider,爬行者一Crawlers,机器人一Robots等)和检索程序两部分组成。网络蜘蛛在网络间连续不断地来回交叉搜索,对所有发现的网站和网页进行判断和标记;检索程序则负责对搜索到的信息进行整理、分类和索引,并对用户提出的各种检索要求作出响应。搜索引擎的运行速度一般都非常快,每次检索只要几秒种即可完成。每一个搜索引擎实际上就是一个庞大的网上信息数据库,而资金与技术则是影响每一个搜索引擎知名度的主要因素。

为了扩大影响、争取用户,许多搜索引擎站点如今已不再单纯地提供网络搜索服务,而是发展成为包括网络搜索、网络新闻、网络游戏、网上聊天、免费电子信箱等诸多内容在内的综合性网络服务媒体。

由于不同的搜索引擎具有不同的检索功能,同一种检索方式或同一个检索主题对不同的搜索引擎通常会得到不同的检索结果,因此,根据不同的检索要求,选择合适的搜索引擎,制定切实可行的检索策略,再辅之以必要的检索技巧,可以使用户以较少的时间去获得较为满意的检索结果,从中领略到Internet的浩瀚无际和博大精深。一次好的检索,可以是一次令人心旷神怡的知识海洋的遨游。

1.2搜索引擎基本类型

目前,Internet中的搜索引擎主要有三种基本类型:以分类目录为主的搜索引擎,以全文搜索为主的搜索引擎和建立在独立搜索引擎之上的多元搜索引擎(Meta-Search

Engine)。其中,前两类搜索引擎的功能是相互借鉴和互为补充的,两者之间的界限也渐趋模糊。

一、以分类目录为主的搜索引擎

这类搜索引擎又称为目录服务(Director Service),著名的Yahoo!就是其代表。检

·1

索系统将搜索到的Internet中的所有资源按其主题分成若干大类,每一大类下面又分设若干二级类目、三级类目等。有的搜索引擎常细分至十几级类目,每个类目下面列出属于这一类目的网站名称和网址链接(有的搜索引擎为防止本系统资源的白白流失,只提供网站镜像而没有直接链接)。有的搜索引擎还对各个网站进行简要介绍和说明。

以分类目录为主的搜索引擎通常还设有网站查询功能,通过在查询框内输人用户感兴趣的词组,即通常所说的关键词(keywords),即可获得与之相关的网站目录和信息。

以分类目录为主的搜索引擎的特点是由系统先将搜索到的网络信息分别归类。这

一工作有的系统由人工操作,有的则由机器自动完成,用户只要遵循该系统的分类体系按图索骥、层层深入即可。这与图书馆中传统的分类索引的功能十分相似,用户在使用时十分方便,是一般用户浏览Internet的良好导游。

以分类目录为主的搜索引擎的不足之处是搜索范围通常比以全文检索为主的搜索引擎的范围要小很多,加之各个系统没有统一的分类体系,操作系统和用户对类目的判断和选择将直接影响到检索的效果;而类目之间的交叉,又导致了许多内容的重复;此外,有的搜索引擎分类太细,也使得用户无所适从。

二、以全文检索为主的搜索引擎

这类搜索引擎通常称为索引服务(Indexing Service),它们与分类目录为主的搜索引擎中的网站查询功能看上去十分相似,但却有着本质的区别,著名的Alta Vista就是这方面的代表。

以全文检索为主的搜索引擎,它们的搜索对象是Internet所有网站中每个网页的全部内容。用户得到的检索结果,通常是一个个网页的地址和一段段的文字,这里面也许并没有用户在查询框中输人的词组,但在反馈信息所指明的那一个个网页所包含的内容中,一定有用户输人的词组或与之相关的内容。

有些以全文检索为主的搜索引擎也提供分类目录,但这是网页的分类目录而不是网站的分类目录。由于网页数目巨大,即使类目分得再细,用户也很难从浏览中得到明确的启发和提示,它们的作用更多的是体现在先让用户进入某一个类目,然后限定在此类目中对给定的词组进行全文检索,这样可以有效地压缩搜索范围。

以全文检索为主的搜索引擎的特点是信息量特别大,在理论上用户可以对Interet所有网站的每一页内容(即可以对每篇文章中的每个单词)进行检索,当用户想对某一特定的主题进行深人细致的研究时,不妨借助于这类搜索引擎。

以全文检索为主的搜索引擎的不足之处则是每次常规意义下的普通检索,反馈的信息往往太多、太滥,以致用户很难直接从中筛选出自己真正感兴趣的内容,要想达到理想的检索效果,往往要借助于进阶检索(Advanced Search)中必要的语法规则和限制符号,而这一点又恰恰是一般用户最感陌生的。

三、多元搜索引擎

Internet庞大的信息,使得任何孤立的搜索引擎都无法单独覆盖,而建立在搜索引擎之上的搜索引擎,通常称之为多元搜索引擎。由于它可以调用其他搜索引擎,从而在

·2*

一定程度上满足了用户更多、更快地获得网络信息的要求。

当用户向一个多元搜索引擎发出检索要求之后,该引擎会将检索要求迅速发送给其他独立的搜索引擎,并将它们反馈的结果集中进行处理之后提供给用户。多元搜索引擎具有同时查询多个数据库的优势,至于其本身是否拥有数据库则无关紧要。

多元搜索引擎根据其工作方式,又可具体分为串行处理和并行处理两种。串行处理是将检索要求先发送给某一个搜索引擎,然后将其检索结果经处理后,传递给下一个搜索引擎,依次进行下去,直至最终将结果反馈给系统。串行处理的搜索引擎准确率高,但速度慢,并行处理则是将检索要求同时发送给所有要调用的搜索引擎。并行处理的搜索引擎速度快,但重复的内容较多。

y

日前,比较有影响的多元搜索引擎有Meta Crawler,Savvy Search,Search Spaniel

等。

四、All-in-(One集成搜索

All-in-(One集成搜索是指用户只要通过一个网站,即可选择多个搜索引擎依次进行搜索。这与多元搜索引擎的工作方式有些相似,只是多元搜索引擎只要一次性输人检索要求,就可以同时让多个搜索引擎一起或分别进行搜索,并对搜索结果进行分析整理,而All-in-(One通常是逐一输入检索要求(可以相同,也可以不相同),然后从搜素引擎列表中每次选择一个进行检索,一般不对搜索结果进行处理。在很多场合,多元搜索引擎被视为All-in-()ne集成搜索的一部分。

All-in-()ne搜索公司的“All-in-()ne Search Page”可以看做是All-in-()ne集成搜索的代表。该网站汇集了Internet中400多个大型的搜索引擎,数据库、索引和分类目录,其数据库容量、系统响应速度和用户界面等多项指标在同类产品中均居领先地位。

五、特殊用途的搜索引擎

一般人们所说的搜索引擎,总是指综合性搜索引擎,它们通常涵盖了各个学科的各个方面。但也有些搜紫引擎,它们是专为某一特殊用途或某一特定目标而设立的,人们将其称之为特殊用途的搜索引擎,如全球华人寻人搜索引擎一I0ok4U,软件搜索引擎一Softseek和Download Power Search,图形、图像搜索引擎一一Image Surfer,支持自然语言的搜索引擎一Ask Jeeves等等。

这些专业的搜索引擎,由于其鲜明的特色和对专业的精通,往往更为用户所欢迎。

1.3搜索引擎使用方法

搜索引擎作为网络之门,是用户上网的必经之路,尽管搜索引整的种类繁多,但其基本使用方法却很简单。一般搜索引擎通常由分类目录和关键词检索两部分组成,以分类目录为主的搜索引擎几乎都有一个关键词检索框,而以全文检索为主的搜索引擎,除极个别(如Alta Vista)外,也都有一个分类目录索引(有的称做频道,有的称做文件夹)。

·3

一、分类目录的使用

根据有关机构对上网用户的调查分析,大部分用户使用搜索引擎的目的,只是想大致了解一下某个方面的信息,一般并不准备对此作进一步深人、细致的调查研究。这些用户最适合使用分类目录,因为分类目录可以使用户仅仅通过浏览的方式就可以集中地查找到某一类的信息,这与传统的信息查找方法十分相似。用户进人某一个搜索引擎之后,只要按照该系统的分类目录体系,按图索骥,层层深入即可。

雅虎中文(Yahoo!)是以分类目录为主的中文搜索引擎中的佼佼者,搜狐(Sohu)是国内搜索引擎中分类目录做得比较出色的一个。现以这两个搜索引擎作为工具,以了解我国大专院校图书馆上网情况为检索课题,简单介绍一下分类目录的使用。

先从雅虎中文人手,进人该站主页之后,就可以在显著位置看到一个分类目录索引。共有14个一级类目可供选择,其中有一个类目名为“参考资料(图书馆、字典、辞典)”;选中它并进人该类目,有目录、百科全书、图书馆等22个二级子类目可供选择;选择“图书馆”并进人该子类目,这时又有大学图书馆、公共图书馆、国家图书馆等10个三级子类目可供选择;选择“大学图书馆”并进入该子类目后,一共列有73个大专院校图书馆的网址与简要介绍,其中使用简体中文(GB码)的有33个,使用繁体中文(Bg5码)的有40个。而使用搜孤,进入主页之后,分类目录索引中共有18个一级类目可供选择,其中有“综合参考(图书馆、地图)”;选中它并进人该类目,有图书馆、辞书参考、地图等12个二级子类目可供选择;选择“图书馆”并进入该子类目,这时又有大学图书馆、公共图书馆等6个三级子类目可供选择;选择“大学图书馆”并进入该子类目后,一共列有

123个大专院校图书馆的网址与简要介绍,其中使用简体中文(GB码)的有64个,使用

繁体中文(Bg5码)的有59个。此时,用户如果对这些大专院校图书馆有兴趣,就可以逐一或有选择地访问它们。

二、关键词检索

关键词检索是搜索引擎的基本组成部分,一个搜索引擎可以没有分类目录,但却很少没有关键词检索,只不过有的搜索引擎关键词检索的对象是网页,有的则是网站而已。

用户进入某一个搜索引擎之后,一般总是在比较显著的位置就可以看到一个关键词检索框。用户只要在检索框内输入一个检素表达式,然后按一下边上的检索键,检索系统就会开始工作,并很快将检索结果返回。用户输入的检素表达式,可以是个单词、

几个单词、几个单词的组合,甚至可以是一句普通的问话等等。不同的搜索引擎对检索

表达式的构成有着不同的要求,同一个检索表达式运用于不同的搜索引擎,返回的检索

结果也不尽相同,因此,构造一个目的明确、针对性强,且能被系统识别的检索表达式,

是用户使用关键词检索能否取得良好效果的关键。

天网中英文搜索引擎(WebGather)是北京大学计算机系网络研究室设计开发的国内为数不多的支持中英文全文检索的搜索引擎,且只支持关键词检索而不提供分类目录。现将该搜索引擎作为工具,以有关中文搜索引整的使用为检索课题,简单介绍一下

。4。

关键词检索的使用过程。

用户进人天网中英文搜索引擎之后,在它的查询框中输人“搜索引擎”,然后按查询键。系统很快就返回检索结果,共搜索到有关的文档6060篇,并显示前10篇文档的内容摘要。由于返回的文档数量太多,故需要缩小检索范围,这时重新在查询框中输人“中文搜索引擎”,则返回的结果显示共找到有关的文档855篇。仍然太多,再在查询框中输入“中文搜索引擎使用”,则返回的结果显示共找到有关的文档19篇,这时的目标已经相对集中了。如果再改输人“中文搜索引擎使用指南”,则返回的结果显示只找到有关的文档8篇,但这8篇文档与检索主题的接近程度则是前面的那些文档所无法与之相比的,用户此时就可以逐一访问并阅读这些文档,从而获得有关中文搜索引擎使用的基本知识。

用户在使用搜索引擎的分类目录时,有时也会需要关键词检索的帮助。如果用户要了解的内容在分类目录索引中一下子找不到,就可以通过在检索框中输人相应的关键词予以协助,系统有可能很快就找到相关的类目,也有可能找不到相关的类目而仅仅提供一些系统认为是比较接近的类目和相关的站点或网页。现仍以雅虎中文和搜狐这两个搜索引整作为工具,以了解我国大学出版社上网情况为检索课题予以说明。

先进入雅虎中文,由于在分类目录索引中一下子找不到有关“大学出版社”的类目,故只好在关键词检索框中输人“大学出版社”,然后按搜索键开始检索,系统返回的结果显示,雅虎中文的各级类目中均没有以“大学出版社”为标题的类自,只有一个六级子类目“出版”与之最为接近,而与大学出版社相关的站点共有27个。剔除重复部分,尚有清华大学出版社、复旦大学出版社、武汉大学出版社、中央)广播电视大学出版社等4条记录。再使用搜狐,搜狐的分类目录索引中一下子也找不到有关“大学出版社”的类:目,同样在关键词检索框中输人“大学出版社”,则系统返回的结果显示,搜狐的各级类目中也没有以“大学出版社”为标题的类目,只有一个四级子类目“出版”与之最为接近,而与大学出版社相关的站点也是27个。剔除重复部分,尚有中国科学技术大学出版社、中国地质大学出版社、中国矿业大学出版社、南京大学出版社、南京师范大学出版社、东南大学出版社、河海大学出版社、苏州大学出版社、重庆大学出版社和西南师范大学出版社等10条记录。

三、简单检索与进阶检索

关键词检索通常分为简单检索与进阶检索(Advanced Search)两种。简单检素就是在关键词检索框中输入一个或几个关键词,然后递交系统进行检索。简单检索的结果往往不尽如人意,因为如果这些单词的使用频率较高,则反馈的信息就有可能多得让人无法应付;而如果这些单词过于“冷僻”,则反馈的信息又往往令人大失所望。‘单靠一个或几个单词毕竟很难完整地表达用户的检索要求。

为此,许多搜索引擎就纷纷提供一些不太复杂的新方法和新途径来对用户的检索要求作些小小的限制(如逻辑条件限制、特殊操作符限制等),力图使搜索系统能更好地领会用户的意图。这些方法和技巧通常就称为进阶检索,也有的搜索引擎将其称之为高级检索或复杂检素。

。5

一般而言,简单检索与进阶检索之间并没有十分明确的界限。有的搜索引擎整体水平较高,不但其进阶检索具备了许多复杂的功能,就连其简单检索所包含的一般功能都超过了普通搜索引擎的进阶检索功能。像专门为科技工作者设计的Northern Light,它的简单检索表达式就允许使用逻辑条件限制。有的搜索引擎的进阶检索的功能则十分

简单,如台湾盖世引擎(GAIS)的进阶检索,仅比一般的简单检索多了一个精确匹配

(Exact Matching)与模糊匹配(Fuzzy Matching)的选择框而已。

不同的搜索引擎,提供的进阶检索的方法和功能不尽相同,但在很多方面,还是有许多共同之处的,现将一些比较常见的进阶检索的方法简要介绍如下。

1.逻辑检索

逻辑检索也称布尔检索。常用的逻辑检索有“AND”,“()R”和“N()T”

AND表示逻辑“与”,有的搜索引擎也常用“8.”,“+”,“,”和空格来表示。AND用

于检索两个以上关键词的情形,检索的结果应该与这几个关键词都有关系,如“经济

AND文化”,就表示既包括经济又包括文化。

OR表示逻辑“或”,有的搜索引擎用“|”来表示。检索的结果只要求与若干个关键

词中的一个有关系即可,如“体操()游泳”,就表示可以包括体操,也可以包括游泳,使

用()R通常会得到许多无关紧要的信息,一般应慎重使用。

N()T表示逻辑“非”,有的搜索引擎用“!”表示。N)T检索的结果将完全排除与

N()T后面的关键词有关的信息,如“水果N()T苹果”,就表示可以包括水果但其中不

能有苹果。

一般能提供进阶检索的搜索引擎,都支持逻辑检索,但有的是“完全支持”,如Excite,Infoseek等;有的则是“部分支持”,如Yahoo!就只支持“AND”和“(OR”;有的在其进阶检素中“完全支持”而在其简单检索中则“部分支持”,如HotBot,Lycos等。中文搜

索引擎一般不直接支持“AND”,“(OR”和“N()T”,而是通过使用特殊的操作符如“+”,

“一”,“|”,“!”等来达到同样的目的。

2.使用特殊操作符

一般的搜索引擎都支持通过一些特殊的符号来改进和限制检索的结果,这些常见的特殊符号有:

十,关键词前加“+”,要求该词组应出现在检索结果中,如“十引擎”就表示检索结果中一定要有引擎字样。

一,关键词前加“一”,要求在检索结果中将该词组排除在外,如“一引整”就表示检索结果中一定不能有引擎字样。

*,表示通配符,一般在检索表达式的中间或尾部使用,用以代替任意的字母组合。如“中央*政府”,既可以包括中央人民政府,也可以包括中央和地方各级政府等;又如“文化*”,既可以表示文化生活,也可以表示文化娱乐,还可以表示文化氛围等,熟悉计

算机D)S命令的用户对此不应陌生。

,,作用类似于逻辑检索中的()R

(),作用与数学公式中括号的作用相似。

“”,在多个关键词组合中,通过加双引号,来查询完全符合关键词组合的信息,如

6

···试读结束···

阅读剩余
THE END