《生物医学搜索引擎与网络信息资源建设》吴校连,夏旭,黄开颜主编|(epub+azw3+mobi+pdf)电子书下载

图书名称:《生物医学搜索引擎与网络信息资源建设》

【作 者】吴校连,夏旭,黄开颜主编
【页 数】 331
【出版社】 上海:第二军医大学出版社 , 2002.10
【ISBN号】7-81060-283-7
【价 格】38.00
【分 类】计算机网络-医药学
【参考文献】 吴校连,夏旭,黄开颜主编. 生物医学搜索引擎与网络信息资源建设. 上海:第二军医大学出版社, 2002.10.

图书目录:

《生物医学搜索引擎与网络信息资源建设》内容提要:

本书详细介绍了网络与搜索引擎基础知识、各种搜索引擎检索特点与使用方法、通用与医学搜索引擎的比较研究、网络生物医学信息资源建设等内容。

《生物医学搜索引擎与网络信息资源建设》内容试读

第一章

因特网发展概况

“忽如一夜春风来,千树万树梨花开”。用这句诗来形容网络的迅速发展,那是再恰当不过的了。随着国际互联网Internet(因特网)的高速发展和网络功能的日益扩大,一网打尽、

一网情深、一网无际的字眼铺天盖地,尽叙各种魅力;网络生存、网上冲浪、网际寻宝、网中世界的时代正以不可逆转之势急驰而来。网络正在改变人类社会生活的方方面面,网络经济汹涌而至,无怪乎人们发出了“网络就是新生活”的响亮口号。网络是一个无限广阔的信息空间,一座财富无数、商机无限的金山。这座金山是所有网民的财富之源。只要去发掘,总会有收获。网络的功能日益扩大,从电子邮件收发到文件传输、网上冲浪、网上聊天、网上购物、网上创收、电子商务等,网络的发展越来越走近我们的真实世界,越来越走近我们的生活。

网络改变了信息发布的方式,任何人都可以即兴粘贴自己的涂鸦之作,体会一种自我满足和自我陶醉的境界,体会一种精神上的充实。网络给网民提供了一个更广阔的舞台,更多的实现自我价值的机会。估且不说网上年薪数十万的高薪聘请,也不必说流动的广告掀起的阵阵热浪,单是网络中提供的创新计划、创意设计和创新基金就足以反映知识经济带来的深刻影响。知识就是财富,智力也是生产力,创新思想更是无价之宝。知识经济时代已然来临,网络已融入日常生活,融入事业,融入血液,已经根深蒂固于脑海中。远离喧嚣的城市,静坐在计算机前,鼠标是行动的方向,搜索引擎是指南,网上资源可尽情浏览,E-mail联系四方。网民不出门,可知天下事。网上冲浪、网上经商、网上赚钱,需要付出辛勤的劳动,更需要付出智慧和时间。很多时候,有人不禁纳闷:网络能干什么?它为什么如此光芒四射?它为什么平步青云?不是吗?曾经步入色彩斑斓的网中天地,却不禁徘徊不知所措,网而却步。每天都是点鼠标、开信箱,找熟悉的网站,照样是按部就班,照样是困在网中央。

为了能加快国内网站的访问速度,有时不得已关掉了代理服务器;为了查找合适的网络信息,不得不漫天撒网,大海捞针:看着图像蜗牛似地慢吞吞地爬上屏幕,真恨不得也将图像关掉,只剩纯文本;想打开一个新的链接,常常是超时、拒绝访问、找不到主机文件;半年不见“容貌依旧”,见不到老面孔的更新,这就是国内部分网站的现况。更新速度慢,有用信息少。埋头在网中探寻中文信息,殊不料搜索到的结果重复,难以实现概念查询和自然语言查询。也许,网络并不像人们想象中的那么神圣,网络更不像想象中的那么美好,沉渣泛起,泥沙俱下,黑客肆谑,病毒无孔不入。网络速度太慢,网民日渐增多,到处都是铺天盖

地的广告,到处都拥挤不堪。有了HTML和超级链接,就像盲人手中有了拐杖,丢不得,少

不了。可一层又一层的链接,烦也不烦?搜索引擎的出现和不断发展,为人们上网提供了“大海捞针的工具”。利用搜索软件“Robot'”(机器人),可以建立更为庞大的网上信息资源库,获得定制性更强、更为专指的信息,为网上信息的快速、定位查找和网上信息资源的建设打开了一道方便之门,也为虚拟图书馆、数字图书馆的建设提供了强有力的技术支持。因特网作为上个世纪后半期最重大的发明之一,已经正在对整个人类社会产生重大而深远的影响,快速发展我国信息技术和互联网事业已成为最为迫切和重要的工作之一。而要更快更好地发展我国信息技术和互联网事业,首先需要深入了解我国互联网络的发展状况,以此指导我们

2

生物医学搜索引擎与网络信息资源建设

进一步的决策和发展方向。因此,回顾中外因特网的发展历程,分析万维网及搜索引擎的发展状况,无疑对于人们了解和利用因特网丰富的信息资源大有帮助。

第一节

因特网发展历程

一、局域网、城域网、广域网

1946年第一台计算机的诞生拉开了人工智能研究崭新的一页,从计算机技术的发展来看,计算机经历了大型机、小型机到微机的发展演化过程;从有无操作系统来看,则经历了无操作系统、单通道操作系统、多通道操作系统和多机系统的过程;而从网络技术的发展来看,由网络、通信、通信网发展为局域网、城域网和广域网,乃至今天最大的国际互联网(因特网),显示了计算机应用逐步深入的进程。

(一)面向终端的计算机通信网这是第一代计算机网,其特点是以计算机为中心进行数据处理与通信,采用了模拟电路交换技术。其演化过程为:需要人干预的脱机通信系统、包含线路控制器和通信控制器的联机通信系统、具有通信功能的分时系统和具有通信功能的多机系统。

(二)报文分组交换网络这是第二代计算机网络,其特点是使用了电路交换技术,数据的产生是间接的,不连续的;首次采用了分组交换技术;将网络分为通信子网和资源子网,以分层结构设计思想来构建计算机网络。

(三)形成体系结构的计算机网络1974年BM公司提出了SNA的体系结构,1975

年DEC提出了DNA的体系结构,由于选择了单一结均解决其公司的网络连接问题,用户利

用受限,容易形成垄断。因此,IS0SC16委员会在1980年提出了开放系统互连参考模型

(OSRM),解决了不同体系结构之间的互联问题,在提出分层思想的基础上逐步走向标准

化,从而刺激用户使用计算机网络,也为局域网的发展奠定了基础。

(四)局域网(LAN)20世纪70年代末80年代初诞生的局域网适应范围广泛,而且

在理论上独树一帜,十分实用,它可作为广域网的一个宏结点,采用分组交换技术和电路交换技术,采用分层的思想和标准化,将分布在一栋楼内的办公室或一个校园内各教研室的计算机连接成一个网络。一般限定在较小的区域内,小于10k的范围。通常采用有线的方式连接。

(五)城域网(MAN)是指一座城市内的各个局域网之间进行互联。规模局限在一座

城市的范围内,(10-100)km的区域。

(六)广域网(WAN)是指全国各地乃至世界各地的各种计算设备如主机、微机、各

类数据终端等的互联,网络跨越国界、洲界,甚至全球范围。通常距离为(100-~1000)km。

(七)互连网络(LAN)LAN与广域网通过一些中间设备如网桥、网关、路由器等进

行的互联,用户看到的是一个虚拟的互连网,作用距离一般为(1000-10000)km。因特网是全球最大的互连网。

(八)宽带综合业务数字网(B-ISDN)其特征是综合化、各种业务集成,以数字化形

式进行传输,高带宽、传输速度快。

第一章因特网发展概况

3

综合以上有关计算机网络的发展阶段,计算机网络是以资源共享为目的,通过通信手段将地域相对分散的一台或多台计算机系统、终端设备和数据通信设备连接起来,在协议的控制下进行数据交换的系统。

因特网不是一个单一的网络,由遍布全球的无数局域网、园区网、城域网、国家级主干网、广域网等组成的作用协调的虚拟网络共同体,它是一个国际性的、最大的分布式计算机网络的集合,以其丰富、广泛的信息资源,提供高速、方便的信息服务,成为科学家学术交

流的重要方式。从网络通信技术看,因特网是一个以TCPP协议连接各个国家、各个部门、

各个机构的计算机数据通讯网;从信息资源的角度看,因特网是一个集合各个专业、各个领域、各种资源为一体的供网上用户共享的信息资源网。从网络互联的角度来看,是众多局域网、园区网和网际网联成一体构成的一个虚拟网络。

因特网起源于美国,从1982年正式建立以来,其发展相当迅速,出现了全球性发展热潮。以因特网为代表的第二次社会信息技术革命已经把整个地球连接成为一个有机的整体,为人类展现了跨国界、跨社会、跨文化、跨语言的信息、知识交流的无限可能性,对世界的政治、经济、文化、教育、科技、医疗卫生事业等几乎所有领域都产生了深刻的影响。因特网带来新媒体—网络媒体;因特网推出新服务—网络服务;因特网提供新生活—网络生活;因特网产生新经济—网络经济;因特网孕育新文化—网络文化。因特网被称之为继报刊、广播、电视传统大众媒体之后的新兴的第四媒体。20世纪90年代以来,万维网(Wold

Wide Web,WWW)的迅速发展和Web服务器的指数化增长,超文本技术的迅速应用和网络

信息检索工具的诞生,将网络用户从一步步浏览网页的过程中解脱出来。WWW信息服务和

WWW信息检索工具的出现和迅速发展,奠定了WWW服务方式的主流地位。WWW信息检

索工具尤其是搜索引擎的研究、开发和应用成为网络信息资源开发利用研究的首要课题。

谁也未曾想到,信息高速公路的浪潮正以排山倒海之势迎面扑来,引发了一场以因特网为龙头的二次社会信息革命。以Wb技术为代表的信息传递和以WWW信息资源搜索引擎为主体的网络检索工具的迅猛发展推动了因特网在各个领域的广泛利用,从而制造了一个又

一个热点话题:远程医疗、远程教育、数字图书馆、网络学院,虚拟医院、虚拟人体、网络信息家庭。尽管因特网进人中国的历史还不到10年,但其发展也相当迅速,“三金工程”和随后而至的“八金工程”奏响了中国信息基础化设施的序曲。因特网的巨大发展得益于网络信息资源的迅速增加。知识经济的出现,则成了推动因特网发展的巨大原动力。由于知识经济时代的到来,知识的加工、整理、扩散、传播和利用成为经济发展最深厚的基础。知识利

用比知识创新犹显重要。因特网通过TCPP协议成功地连接了全球上千万个运行在不同平台

的计算机局域网、园区网和国家级骨干网,并为用户提供了多种方式的信息服务,如电子邮件服务、新闻组、文件传输服务、远程登录、广域信息服务、查询菜单系统、超文本系统。

WWW服务方式采用HTTP协议,页面的超文本链接交互地为用户提供文本、图形、动画、

视频和声频信息,“视听说一体、图形声并茂”,比早期的广域信息服务系统(WAIS)和Gopher菜单查询系统更方便、更直观,成为今天因特网上最常用的信息检索工具。

二、因特网的产生与发展

(一)因特网的起源20世纪60年代,美国一些专家基于高新技术条件下的战争指挥怎样才能通行无阻的设想提出设计了一个分散的指挥系统,这就是由美国国防高级研究计划

局(ARPA)1969年开始研制的军用小型局域网ARPANET(阿帕网),它是因特网的一个原

生物医学搜索引擎与网络信息资源建设

始骨干网络,其最大的贡献是TCPP协议的成功开发。由阿帕网演变而来的因特网从1982

年正式建立以来,其发展相当迅速。ARPANET最初建成时仅有四个结点,到1972年3月也

只有23个结点,1977年有111个结点。1984年阿帕网分为ARPANET和MILNET,前者主

要用于试验性研究开发,后者则是纯粹用于军事上的研究。1986年美国国家科学基金会建立

NSFNET,作为连接各种计算机网络的主干网。NSFNET与ARPANET实现了互通互联,并

于1989年正式取代ARPANET。20多年来,随着社会科技、文化和经济的发展,特别是计

算机技术、网络技术和通信技术的迅速发展,人们的信息意识大大提高,也越来越重视对信息资源的开发和利用,这些都强烈刺激了因特网的飞速发展。1993年美国首先提出的“信息高速公路”计划在全球范围引发了一场新的信息革命浪潮,作为信息高速公路雏形的因特网也成为世界关注的热点,被人们称为人类争夺未来的起,点。因特网的迅猛发展,对社会的发展产生了巨大的影响,使人们越来越关注网络环境下所获得的信息,信息网络技术及其应用这场跨世纪的革命正席卷着全球,影响着众多的行业。据统计,全世界与其相联接的计算机主机数1984年为1000台,1988年,由NSFnet连接的计算机数就猛增到56000台。后每年更以2~3倍的惊人速度向前发展。1996年增至1280万台。目前已拥有180多个国家,2000万台计算机和2500个数据库,联接10亿多个计算机网络,拥有近3亿用户,且计算机和数据库以每年高于20%的速度激增,用户数以每年7%~12%的速率增加。今天的因特网已不再是计算机人员和军事部门进行科研的领域,而是变成了一个开发和使用信息资源的覆盖全球的信息海洋,成为科技工作者开展科学研究和学术交流的世界舞台。

因特网的迅速发展,大大刺激了经济的发展,极大程度地改变了以往人们通常需要面对面交谈的营销模式,从而促进了网络经济的产生与发展。20世纪90年代以来,因特网从大学和研究机构进入商业市场,网络公司因此蜂拥而起。网上通信、购物、在线保健、信息查询、预定机票、交易、旅行、网上炒股、政府和企业上网等,给经济、政治、社会及人们的工作和生活带来了前所未有的影响,因特网通过即时信息需求和刺激新的消费需求等方式拉

动信息技术和T产业的发展,使网络经济成为各国经济新的增长点。据美国得州大学电子商

务研究中心发布的一项报告显示,2000年美国网络经营总收入达8300亿美元,较1999年增长58%。网络经济在一段短短时间里蓬勃发展,仅仅两年前,网络经济营收才3230亿美元,两年后却激增为8300亿美元,增长了156%。网络经济力量已经成为美国经济中前所未有过的重要角色,不但缔创了无数就业机会,而且提升了各行各业公司的生产力。其影响力不只限于互联网公司。网络经济力量已经让传统的公司和职业转型,行业整合和集团化经营已经成为行业转型的重要途径。伴随着网络化的普及,企业为了更好地适应环境的变化,在企业经营管理方面必须依托庞大的互联网络,进行市场调查,分析消费者行为,建立动态实用的消费者数据库,为客户量体裁衣,决定生产什么,生产多少,怎么生产,怎样出售等等,从而系统地决定整个企业运作。借助互联网开展电子商务便是进行行业整合的绝好机会。企业通过联盟结成一套互相依存的生态系统,不同的企业承担不同的功能,并共同服务于客户。出现了业内联手、业间联手等主要的行业整合方式。

因特网同时也在改变人们的工作和生活方式,“Soo族”已成为一种新的职业,工作地点开始由公司向家庭转移,许多人在家里上网检索信息资料和进行业务拓展。因特网已经渗入到世界各国的政治、经济、文化、教育和社会生活的方方面面。因特网正在改变人们的生活环境、生活方式,日益成为人们日常生活中必不可少的一部分。

第一章因特网发展概况

(二)因特网在中国的发展状况1987年9月20日,钱天白教授发出我国第一封“飞越长城,通向世界”的电子邮件,揭开了中国人使用因特网的序幕。1987年,中国科学院高能物理所通过国际联网线路进入因特网,标志着我国进人了网络世界。1991年,该所以专线方式实现同因特网的联结,开始为全国科学技术与教育的专家提供服务。自1994年以来,高能物理网HEPnet、中科院教育与科研示范网、国家教委科研教育网、国家公共数据网以及其他一些计算机网,先后完成同因特网的联结。从1994年加入因特网到现在,我国因特网的发

展速度相当惊人。据中国互联网络信息中心(CNNIC)1997年10月第一次调查,我国上网

计算机29.9万台,上网用户62万,注册域名4066个,WWW站点1500个;我国国际线路

的总容量为25.408Mbps。截止到1998年6月底,接人中国科学技术网(CSTNET)、中国教育

与科研计算机网(CERNET)、中国公用计算机互联网(CHINANET)和中国金桥信息网

(CHINAGBN)四大互联网络的计算机达到54.2万台,上网用户总数为117.5万,注册域名9415

个,WWW站点数约为3700个,国际出口线路的总容量达到84.64Mbps。作为我国高校最

重要的基础设施之一的CERNET已连接了200多所大学。CSTNET实现了百所联网。

CHINANET覆盖了31个省市。CHINAGBN在24个省市设立了站点。据2002年1月CNNIC

第9次调查,截止2001年12月31日,我国互联网络国际出口带宽为7597.5M,是2000

年同期的2.7倍;上网计算机数也由2000年12月的892万台增长到2001年12月的1254

万台,增幅为40%;上网用户总人数为3370万,WWW站点27.7万。通过考察上网人数的

变化和联网计算机台数的变化,可以发现,与几年前相比,中国的互联网络已经有了长足的进步,随着互联网络的法制环境、政策环境,竞争环境、创业投资环境、基础环境等方面的改善,中国互联网络将会得到进一步的发展,从而也将变得更加成熟。

三、万维网的发展历程

(一)概况万维网,又称全球网、环球网,英文名World Wide Web,简称WWW,产生的时间并不长。早在1989年3月,欧洲粒子物理实验室(CERN)的科学家TimBerns Lee

首先提出了环球网WWW,把它作为高能物理界科学家传输新想法、新成果的工具,并着手

编写了一个“超文本项目建议案”在CERN内广泛传阅并征求意见。1990年他在Nxt工作站

上开发了最早的WWW原型。该软件能让用户在网上查阅、传输超文本文档,并具有编辑超

文本功能,于1991年5月在CERN的中央主机上发布。然而,直到1993年1月,因特网上

仍只有50个WWW服务器在工作。1993年2月美国国家超级计算应用中心(NCSA)所在

的依利诺大学学生Mark Andreessen编制的网络浏览器(Web Browser)Mosaic程序a版开始公布,Mosaic的出现为WWW的迅速发展铺平了道路。1993年6月,WWW服务器的数量增加到130个,12月623个,1994年6月1265个,1995年初22000个以上。到1996年6月增至23万个,1997年1月达65万个,1998年1月为95万个,1999年则高达300万个。

目前仍在不断增长。WWW网络的文件是以超文本的格式编写,含有与许多相关文件的接口,

用鼠标点击文件中的某些词汇就可打开与这些词汇相关的文件,而不必理会这些文件的具体

存放位置。这样可将因特网上不同地,点的相关数据、信息有机地编织在一起。WWW的出现,

把世界上蜘蛛网一样的网络组成一个统一的整体,使用户能够在因特网上查找已建WWW服

务器的站点所提供的资源。利用WWW可检索网上几乎所有的信息资源,如文本信息、声音

和图像。WWW网络以其接近80%的信息流量成为当前因特网上最受欢迎、最为流行、最新

的信息服务系统。由于WWW的超媒体功能实现文字、声音、图像、图形信息资源的一体化,

生物医学搜索引擎与网络信息资源建设

使得建立和查询WWW服务的过程充满乐趣。WWW信息检索工具是一个基于超文本的全球

信息查询工具,采用客户机U服务器方式(Client/Server)、主机(wwW服务器)上安装有

WWW服务程序,用户则使用客户端程序(WWW浏览器)访问WWW服务器上的资源。

WWW服务器的信息以主页或Wb页的方式出现,主要为超文本或超媒体。超文本是用超文

本标记语言(HTML)编写的,特点是文本中含有许多超级链接,它们为带有下划线或加亮

的标题或关键词。同其他因特网信息检索工具如Gopher、WAIS的查询功能相比较,WWW信息查询具有以下特点:自动查询;提供的超文本格式可以查询网上所有类型信息的资源;

WWW使用图形界面,操作方便,而且在各种机型上均能够使用。WWW的发明与应用,大

大推动了因特网的发展,使网络应用的领域变得越来越宽广。现在,因特网上应用最为普遍

的功能是WWW,它几乎已经成为了因特网的代名词。因特网发展初期,人们主要是通过一

步步点击超级链接方式逐步获取信息,这种基于超级链接的逐步浏览方式称为浏览。但是,

随着因特网的迅速发展和网络信息资源尤其是WWW信息资源的指数化增长,使得通过浏览

方式一步步查找所需信息的过程十分不便。为帮助用户在信息的海洋中快速方便地搜索所需

信息,很多机构和个人开发了称为搜索引擎的网络信息检索工具,WWW搜索引擎应运而生。

(二)WWW搜索引擎的发展因特网上的WWW信息资源非常丰富,要从这个信息海

洋中准确、方便、迅速地找到并获得所需信息往往比较困难。为了解决网络信息检索这一难题,从20世纪80年代起,人们就开发了诸如Archive、WAIS、Veronica、Gopher等网络信

息检索工具。从90年代中期起又出现了检索WWW信息资源的搜索引擎技术,并以此构造

了检索各类网络信息的集成化检索工具。1994年Yahoo、Lycos和Webcrawler等搜索引擎的

研发与投入使用,拉开了网络信息检索的序幕。在短短的时间内,WWW搜索引擎经历了从

无到有、从少到多,从功能单一到多元的过程。搜索引擎的发展速度和数量是其他网络检索工具无法比拟的,而且其检索功能日臻完善,许多主题都可利用它检索到数量多、质量高的网页和网站信息。丰富的网络信息资源和良好性能的搜索引擎形成了共同发展的良性循环。WWW网络信息查询工具比早期的WAIS和Gopher检索工具更方便、直观,已经成为因特网信息检索方式的主流,并大有发展成为网络标准检索工具的趋势。到1996年,美国已开发了100多种各类搜索引擎,多语种搜索引擎不断涌现。亚洲、非洲、欧洲、大洋洲国家开发的搜索引擎已达70余个,第一个中文搜索引擎悠游(Goyoyo,www.goyoyo.com)于1997年在香港问世,这是世界上第一个中文智能搜索引擎,于1997年5月投入使用。它是以香港中文大学科研成果为基础、专为中文设计开发的产品。除具备以西文为基础的搜索引擎的优点外,还融入了计算机人工智能技术,可自动分析中文网页,进行分词处理。该搜索引擎能自动提取关键词,建立以关键词为基础的查询数据库,降低了系统开销,大大提高了查询效率。悠游的国标码与大五码自动转换功能,也极大地方便了全球各地采用不同中文系统的用

户。目前悠游已收录了8万网站、80万中文网页的信息。1999年悠游被美国在线AOL、网

景Netscape、国中网等站点用作搜索引擎。不久前美国微软公司门户网站MSN香港站也选用了悠游中文搜索引擎。悠游进而又与国内著名互联网服务商东方网景、索易、碧海银沙、湖南信息港等建立合作关系,在中文搜索引擎市场占据领先地位。除北京外,悠游在上海、重庆、美国、香港和台湾均设有网站,为整个华文圈用户提供更加高效率、本地化的服务。搜狐、新浪、天网、搜索客等搜索引擎也迅速发展,成为国内门户网站中的姣姣者。百度搜索、孙悟空搜索使中文搜索引擎进一步趋向智能化、更接近自然语言检索。正如悠游搜索中

···试读结束···

阅读剩余
THE END