《Internet通用搜索引擎检索指南》(美)R.霍克(Randolph E. Hock)著;金丽华译|(epub+azw3+mobi+pdf)电子书下载

图书名称:《Internet通用搜索引擎检索指南》

【作 者】(美)R.霍克(Randolph E. Hock)著;金丽华译
【丛书名】Internet信息检索系列
【页 数】 192
【出版社】 沈阳:辽宁科学技术出版社 , 2003.02
【ISBN号】7-5381-3849-8
【价 格】28.00
【分 类】因特网-情报检索-指南
【参考文献】 (美)R.霍克(Randolph E. Hock)著;金丽华译. Internet通用搜索引擎检索指南. 沈阳:辽宁科学技术出版社, 2003.02.

图书目录:

《Internet通用搜索引擎检索指南》内容提要:

武汉大学信息管理学院、武汉大学信息资源研究中心审定并推荐:本书介绍了网络搜索引擎的发展历史,详细介绍了它们的工作原理、不同搜索引擎的检索方法和选择;转论了8个先进的搜索引擎的情况等诸多内容。

《Internet通用搜索引擎检索指南》内容试读

第章

搜索引擎概述

发展简史

搜索引擎的发展历史十分短暂,还不到十年的时间。本节概述它的发展简史。

在有网络搜索引擎之前,是一派混乱景象。要想在Internet上查找某些信息,必须知道信息的确切地址。“gopher'”的研制迈出了走出混沌、走向开始以某种程度组织Internet内容的极为重要的第一步,开始用菜单形式排列服务器的Internet地址。(“gopher”这个词本来是Minnesota州立大学的吉祥物的名称,从此诞生了第一个“gopher'”。)“gopher'”不能处理HTML文件,主要是处理标引文件的标题或极为简单的描述。进人gopher,可以下载所选择的文件。从gopher产生Archie(检索gopher)、从

Archie产生Veronica(检索全部“gopher空间")、从Veronica产生

Jughead,此时,它们已经与卡通文字没有太大的关系。在此之后,它i们的名称被专业化。甚至很少有人知道Jughead曾经是什么了。

Gopher出现刚刚过了两年,就被万维网的迅速发展而掩盖了:用万维网可以检索超文本,可以全文检索,可以使用图像浏览器等一些使用方便、相互交互的高技术一一而且研制出了网络搜索引擎。

第一个成功的搜索引擎是WebCrawler.,由华盛顿大学研制,1994年4月亮相。在一年之内,有三家搜索引擎相继出台,包括

Lycos,Infosseek和Open Text。.在I995年的晚些时候,AltaVista和

Excite问世。极为有趣的是,今天我们检索人员使用的检索技术已

2

Internet通用搜索擎检索指南

经在某种程度上出现在这些早期的搜索引擎中了,这包括布尔逻辑检索、截词检索等方法。遗憾的是,并且是随着这种情况对目前的

不断影响,竞没有搜索引擎使用在联机检索例如DIALOG和LEX

IS-NEXIS中已经使用的复杂的检索技术和方法。此外,既没有搜

索引擎,也没有它们的同类一网站目录,使用已经有上百年历史的、完整的分类法的理论和实践。这种情况,以一种实用的方式告诉我们,大多数的搜索引擎都是为偶尔为之的上网人员研制的,并没有针对那些急于使用更为复杂的方法和技术的人们。

Hot Bot出现于1996年,Northen Light出现于1997年。HotBot使用了较为复杂但用起来很方便的界面,配备了规模庞大的数据库(是l997年末之前最大的搜索引擎)。Northen Light将网站检索与独家专有的信息资源紧密结合。G0ogle出现于1998年。它按“被引用次数”对结果排序,并与个超简单的界面有效结合,成为一种广为各类检索人员使用的搜索引擎。与此同时,争做最大的搜索引擎的竞争也有所缓解,直到1999年Fast Search出现。Fast

Search宣称,它的数据库含有2亿项记录。由于这一影响,外加其他方面的竞争因素,对规模的竟争又异军突起。到2000年1月,有4个搜索引擎突破2亿项记录。

在“早期的”搜索引擎中,Open Text首先退出了历史舞台。到1998年的早些时候,它已不复存在。在两三年内,更多的搜索引擎销声匿迹。与此同时,已有的搜索引擎不断争秀,其中,有些过于肤浅、有些则在完整的“检索”面之外,增加了“人口”特征。我们可以预期,这些搜索引擎的建造者会不遗余力地提高检索能力。有迹象表明,竞争会沿此底线常盛不衰。在某些情况,确实是沿着正确发展道路迈步,如果搜索引擎开始实现这一目标的话。

在企业界的这块剩余的风水宝地,搜索引擎公司对流行风尚持有极大的怀疑态度。在1996年和1997年,这种风尚令人认为,搜索引擎已经有了一种“高级”的方式,无论这种高级方式在实际上是否比复杂方式多做了什么,也不管相同的东西是否被安在主页上o

出于效益上的重要考虑,在1998年,提出了“个性化”和“入口化”。个性化的人口或“网站频道”的思想被充分体现在在主页上由用户确定和选择的新闻领域、当地天气和电视节目、个人股票行情跟踪、个人效率手册等方面。(当然还有占星术。)搜索引擎的建造商都希望跟踪别的领先的搜索引擎,并认为,这种方法

Internet通用搜索l擎检索指南

搜索引擎的构成

在我们了解搜索引擎的结构之前,重要的是要先来介绍一下个经常使用的词一人口的含义。所谓入口,是指在网站上有一个基础页面(网页),用户总是自动地先进入它,页面上排列有到用户最需要的检索工具的方便通道。该通道(人口)布列了一系列经常需要的信息和检索工具,利用它们,用户可以不必再去查看几个不同的位置。例如,使用Exte的个性化网页作我的浏览器的“起始页面”,我可以看到选择的新闻标题领域,我的当地天气预报,我的股票行情,我的未来工作的安排计划等等。更为重要的,根据本书的内容,可以看到该网站的搜索引擎的提问框。利用该提问框,可以检索有2亿多个网页的数据库。我们将主要查看网站即搜索引擎的这个部分,但也不忽视其他的入口,特别是从它们可以对

一个提问得到更佳的结果的时候。

但是,按照通常的意义,“搜索引擎”这个词,一开始就专指整个网站,以及接受提问并检索庞大数据库的那部分网页。在大多数情况,“搜索引擎”这个词都是专指后者,而“服务”或“入口”才指整个网站。“各类入口”被用来特指其他检索工具和提供的信息(目录、天气等)。因此我们可以说:AltaVistad的服务提供了人口,而人口包括搜索引整和各类人口,如新闻、网站目录等工具。

搜索引擎主要包括5个组成部分:(1)搜索引擎的搜索程序,用于搜索和寻找网站和网页;(2)收集网页信息和收集来自其他资源的其他网页信息的数据库;(3)标引程序,用于标引数据库中的内容;(4)“检素引擎”,即接到提问要求后,从索引

数据库中检索资料的算法和相关程序;(5)图像(HTML)界

面,收集用户的提问数据,送到检索搜索引擎。

由于各类入口正在被越来越多地并在检索过程中,所以把某些各类人口看成是第六个组成部分,实际上也是正当的。

搜索程序

搜索网站的搜索程序(crawlers、spiders)用于:(1)识别搜索引擎上的新的网站;(2)识别已经覆盖但有变化的网站。搜索程序收集来自网站的网页内容的信息,并将该信息送给搜索引擎的数据库。对于其工作原理,要谈的内容很多,但对于检索人员来说,只有一些问题是相关的。本书只介绍为什么有些搜素引擎能查

搜索引擎概述

到某些网页,而有些却查不到这些网页,即便该网页就在第二个搜索引擎的数据库中。有许多搜索引擎,在搜索网站时,总是更为全面和经常地搜索常用的网站(例如用户经常点击和带有许多链接的网站),对不常用的网站则不屑一顾。搜索程序对搜索的深度、广度或者二者均做了限定。在搜索深度上,不仅搜索主页,而且还搜索那些网页的附属网页。在搜索广度上,只是搜索更多的网页,而不去搜索网站的附属网页。随着搜索引擎的日益成熟和竞争的加剧,有着明显的趋势,将搜索深度和广度紧密地结合在一起。

搜索引攀的数据库

全部单个网页储存信息的集合构成了搜索引擎的数据库。数据库中不仅包括被搜索程序搜索到的网页,而且还越来越多地包括被其他资源和技术搜索到的网页。附载在搜索引擎上的庞大数量的网页,都是由网页的出版商直接登录的。检查一下任何一个搜索引擎的主页,都会发现由你或者别人登录在该搜索引擎上的网页的链接。只要该网页不是“垃圾网页”,都可以挂接在该数据库上。全部或者大多数搜索引擎的生产商都检查登录的网页是不是垃圾网页(令人讨厌的程序设计人员总是利用令人讨厌的技巧非法地提高网页被检索的机会)。有的搜索引擎还可能使用其他的标准,但是,除了垃圾之外,机会总是良好的,被登录的垃圾网页行将在搜索引擎数据库中消亡。

还可以在搜索引擎的数据库中放入其他的资源。例如,数据库中还可能包括来自网站目录,如Open Directory或Yahoo!的网页或类目。

(注:在上述的讨论中,我们交替使用了词汇“网站”和“网页”。从专业上来讲,“网站”通常被认为相当于一个特定的域名,可以有许多的网页一甚至高达几千个。)》

有时很容易地会忘记,在我们使用搜索引擎时,我们不是直接在检索网站,而是在检索一个数据库,它包含了描述网站上一部分网页的记录。记住它,可以帮助我们避免对搜索引擎实际功能期望过高。

标引程序和索引

从用一个提问式实际能够检出哪些网页的角度来看问题,标引甚至比搜索过程更为重要。标引程序检查数据库中储存的信息,并

···试读结束···

阅读剩余
THE END