《系统搜索与网络挖掘全解析》华师傅资讯编著|(epub+azw3+mobi+pdf)电子书下载

图书名称:《系统搜索与网络挖掘全解析》

【作 者】华师傅资讯编著
【丛书名】非常电脑秘技
【页 数】 214
【出版社】 汕头:汕头大学出版社 , 2005.05
【ISBN号】7-81036-783-8
【分 类】系统资源-基本知识-计算机网络-基本知识
【参考文献】 华师傅资讯编著. 系统搜索与网络挖掘全解析. 汕头:汕头大学出版社, 2005.05.

图书目录:

《系统搜索与网络挖掘全解析》内容提要:

本书重点讲述Windows系统、注册表、各种应用程序中的搜索之道,并介绍了在各类搜索引擎、搜索工具的高级使用方法。

《系统搜索与网络挖掘全解析》内容试读

Chapter

1搜索的基本知识

■■■■■■■■口口口口口口

本章导谏

信息社会,信息数量呈几何级数字爆炸式增长状态。丰富的资源像一个宝藏,如果你仍然一无所有,那是因为你不知如何撷取。掌握了搜索的绝技,即便难如大海捞针也会变得易如反掌;反之,不了解搜索,就像盲人摸象一样,摸到什么就是什么了

本书谈搜索,不是指翻箱倒柜,不是靠目光锐利,而是指对计算机和网络资源的搜索技巧。通过本章的讲解,你将了解到搜索的工作原理与重要意义。

【.为什么要搜索

用什么手段可以精确地发现搜索目标呢?回答是:搜索引擎。那么,什么是搜索引擎?搜索引擎(Search Engines)是指对互联网上的信息资源进行搜集整理,然后可供查询的系统。能否精确地发现搜索目标,在于使用关键词的精确性。关键词就是根据需要提炼出来的最能表达需要的词语。

但是在无数的网页中,可能很多网页都包含了同一个关键词,怎么决定一个含有关键词的网页排名在搜索返回页面的最上层呢?这里面有搜索引擎的因素,也有网络营销的因素,所谓网络营销因素就是是否愿意花钱。很多搜索引擎推出了搜索排名服务,用户可以花钱买

一个“头名状元”。

至此,搜索的大义已经比较清楚了:对于搜索者,需要借助搜索来“发现”;对于被搜索者,则希望自己“被发现”,连接两者的桥梁是搜索引擎和关键词。

1.2搜索引擎的分类

搜索引擎按其工作方式主要可分为三种:全文搜索引擎(Ful1 Text Search Engine)目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。

系镜搜索与网辂挖摇全解折

000°。

非常电脑秘技系列

1.全文搜索引擎

全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Go0gle、Fast/A11 TheWeb

Altavista、Inktomi、Teoma、WiseNut等,国内著名的有百度(Baidu)等。

公M:/e.baidu.can/hai=n2d:t=5288=小2312tr-复e1oc口v,来户视星提宋

主功路袋百度提园口址好/塑维呢中

Baid仙百腹

设面度左通与有适理议素引摩

百度我常在结果中妆

新国刊夏圆贴吧即的面片代接索整站项目在提。提宝提索所在四里巴巴

提发把常3整在32是。一提提密在酒

火速园超一适的网络应用校木服务商

上海最大强的网站推广、常,城名注开,虚拟主机。网站建说、企业邮箱服务商

m.t+a1g.t41E2000-8-径

时代互联网站推广专家

两易、。可度能找到您的公都,找到意的产品。现在申请登录。还有代惠选。%,nt,m2004-8-广

专业搜场研公司

成4r小是考业的度零等铺铺研究公可,为您提供多种按g1草细关的报告及容高服务。

.ixeaearch.6轨Gw/earch.ongino/1W200-8-推

从搜索结果来源的角度来看,全文搜索引擎又可细分为两种:一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的几家搜索引擎;另一种则是通过租用其他引擎的数据库的搜索引擎,但它是按自定的格式排列搜索结果的,如LyC0S。

2.目录索引类搜索引擎

目录索引类搜索引擎虽然也具有搜索功能,但在严格意义上来定义,它算不上是真正的搜索引擎,只不过是按目录分类的网站链接列表而已。用户不用进行关键词(Keyw0rds)查询,仅靠分类目录就可以找到需要的信息。目录索引中最具代表性的是雅虎(Yh00),其他

淀常摩园口0深。大速,中,n期成中

项新国

全第例站上分类期站分类日录【新细图片工音乐1能范蓝面

分英日录:由新浪挂索专业编睡圳选和分英的阿站结果

分纯流索的

想乐体围

求职与耀明

艺术

中塔男黑、多毛置员

色凸.垫、外金、告招型

曾恩名器砂漫、量组命理

甚宝野酸死,中处苏通

质米通吐、西息艺士室

生活服务

文学

计剪提与互联网

显热逸岛腕湖量点、明幽

小显、市米、意文、图上整墨

喜、整北、顶硅、巴上

低群风、玉.提、滋2金

性育健理

医拉健康

考试相生。定

费运益、足序、四路、拉时

器角抛出

查、龙人高

陆武式塞车更

营进县、器生进像玄性健境

2

Chapter

°.000

搜索的基本知识

著名的还有Open Directory Project(DMOZ)、LookSmart、About等。国内的搜狐、新浪、网易搜索也都属于这一类。

3.元搜索引擎

元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpi1e、Vivisim0等,中文元搜索引擎中有metaFisher中文元搜索引擎等。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpi1e,有的则按自定的规则将结果重新排列组合,如Vivisimo。

http://.baf:.ant cn/fich/

metaFisher中文元搜索引擎

搜素网页mneLFisher请输入关健字:

博铺人化潭日瑜的片需园

黄索

高级搜活

选择metaFisher的查询范围:回Gooole☑Bsdu口AllTheweb回Yhoo回sN口Op

仅在读站点内搜素

欢迎使用metaFisher中文元搜素引整

除上述三大类引擎外,还有以下几种非主流搜索引擎方式:

(I)集合式搜索引擎:如H0tBot。该引擎类似MTA搜索引擎,但区别在于不是同时调用多个引擎进行搜索,而是由用户从提供的4个引擎当中选择,因此称它为“集合式”搜索引擎更确切些。

(2)门户搜索引擎:如AOL Search、MSN Search等虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他引擎。

(3)免费链接列表(Free For Al1 Links,简称FFA):这类网站一般只简单地滚动排列链接条目,少部分有简单的分类目录,不过规模比起Yh00等目录索|来要小得多。由于上述网站都为用户提供搜索查询服务,为方便起见,通常将其统称为搜索引擎

1.3搜索引擎的奥秘

当利用搜索引擎进行搜索时只需要输入关键字,然后单击“搜索”,计算机就能自动列出想要的信息。那么它的搜索原理是怎样的呢?

1.全文搜索引擎

3

系镜搜索与网给挖据全解折

-00°。

非常电脑秘技系列

在搜索引擎分类部分提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种:一种是定期搜索,即每隔一段时间(比如G00g1e一般是28

天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发

现新的网站,它会自动提取网站的信息和网址加入自己的数据库。

另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(两天到数月不等)定向派出“蜘蛛”程序到搜索引擎网站,搜索引擎扫描网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不足以保证该网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到网站并自动将其收录。

当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求相符的网站,便采用特殊的算法一通常根据网页中关键词的匹配程度、出现的位置/频次、链接质量等,计算出各网页的关联度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。

2.目录索引

与全文搜索引擎相比,目录索引有许多不同之处。

首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览该网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳。

其次,搜索引擎收录网站时,只要网站本身没有违反有关规则,一般都能登录成功。而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。尤其像Yh00这样的超级索引,登录更是困难。

此外,在登录搜索引擎时,一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录(Directory)。

最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以从用户的角度看,拥有更多的自主权;而目录索引则要求必须手工填写网站信息,而且还有各种各样的限制。一旦工作人员认为提交网站的目录、网站信息不合适,可以随时对其进行调整,当然事先是不会和提交者商量的。

目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟搜索引

4

00

。0001

Chapter

搜索的基本知识

擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。

目前,搜索引擎与目录索引有相互融合渗透的趋势。原来一些纯粹的全文搜索引擎现在也提供目录搜索,如Goog1e就借用Open Directory目录提供分类查询。而像Yaho0这些老牌目录索引则通过与G00g1等搜索引擎合作扩大搜索范围。在默认搜索模式下,一些目录类搜索引擎首先返回的是自己目录中匹配的网站,如国内的搜狐、新浪、网易等;而另外一些则默认的是网页搜索,如Yahoo。

了解搜索引擎的工作原理对日常搜索应用和网站提交推广都有很大帮助。

1.4围好专业搜索平台

1.认识搜索平台

搜索平台也就是当用户要进行一次搜索时,要知道打开哪个网站、使用哪个搜索引擎」只有在认识了搜索平台所提供的功能后,才能做进一步的搜索工作。比如,如果要找的是张图片或是一个多媒体文件,却到一个只提供文本搜索的网站上进行搜索,想想搜索结果会是什么样子?

在大环境的刺激下,搜索引擎已不再像当初那样“鲜为人知”,它已经被更多人关注。为了占领市场,各种搜索引擎也使出了浑身解数,所提供的搜索功能日趋完善。以百度搜索引擎为例,目前它是世界上最大的中文搜索引擎,总量超过3亿页以上,并且还在快速增长。它不仅提供常规性的网页搜索,还提供一些图片以及音频和视频文件的搜索,在最大范围内满足用户的需求。

除了百度搜索外,目前国内还有一些各具特色的搜索引擎,如:新浪、搜狐、3721、聪慧等,最新崛起的还有一搜(httD://www.yisou.C0m/),它们都是平时可选的搜索好帮手。

O!

一搜

一搜天下小

图片

Yisou.com

页1图片121堑国1B

]图片提索压所

太陆明版经沙生毛州迹理吕意量鞋质然通西品柄通胡班老更酸林盟健型更多减合卵图导发主控社迎亚儿牡顶牡情九麻实遇金城然接丝任晚五谢进夏老日韩明]宝密进金喜数山口百至超湿影弦安在道江口汗企表身控本健票多西方明市兰黑且老登红四璃明酒题强风克江理里州断及杰通克香题更先功物前物太能维圆理拉孔雀鱼全提速压社路五金重置外投通继烟理更多区景建刻九期的马花代去玉式黄业室士也置言鱼西对锁白金汉室迪斯见玉佛连色浮五更天卡通人物]0迎去力水王视弱准加理维该送热恒直缓笔小新迷光属去方叉惯城土九子更多热点推的比蒸配健名通电麦是金发要文能黑要士广道性药挂质野生类之装透显球立县更金

5

系铣搜索与网给挖据全解折

-000

非常电脑秘技系列

在学习和使用过程中,应该多了解各类搜索引擎在搜索方面的功能和特点。这样,总结出来的经验可以帮助用户在进行下一次搜索时少走弯路,根据查找的信息分析最佳组合的关键字,然后以搜索引擎的特点选择登录到哪个搜索引擎,从而轻松、快捷地找到想要的信息。下面给出目前国内外著名的搜索引擎目录,以供大家学习参考:*Go0g1e搜索引擎(httD:/www.g00g1e.C0m)

最优秀的、支持多语种的搜索引擎之一,包括35个国家和地区的语言资源。约可搜索3,083,324,652张网页,并提供网站、图像、新闻组等多种资源的查询。

*百度中文搜索引擎(http:/www.baidu.com)

全球最大中文搜索引擎。提供网页快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、新闻搜索、F1sh搜索、信息快递搜索、百度搜索、搜索援助中心。

*聪慧搜索引擎(已改名为中国搜索:httD:/www.zhongs0u.c0m》

通过世界领先的文本分析及集合技术来进一步优化搜索结果,实现了人工智能和搜索引擎技术的完美结合。搜索结果的提取不再依赖某一个评价标准,而是以用户的个性要求为准则,把基于关键词匹配改变为基于概念的搜索。把和用户需求有关的内容提炼并聚类,大大提高了检索精度。

*新浪分类搜索引擎(http:/diy.sina.com.cn)

互联网上规模最大的中文搜索引擎之一。设大类目录18个,子目录1万多个,收录网站20余万。提供网站、中文网页、英文网页、新闻、汉英辞典、软件、沪深行情、游戏等多种资源的查询。

*雅虎中文分类搜索引擎(http:/cn,yahoo.com)

世界上最著名的目录搜索引擎。雅虎中国是雅虎在全球的第20个网站,于1999年9月正式开通。它包括14个主题大类的内容。

*搜狐分类搜索引擎(/httD:/dir.sohu.com/index.html?kw=)

搜狐于1998年推出中国首家大型分类查询搜索引擎,到现在已经发展成为中国影响力最大的分类搜索引擎。每日页面浏览量超过800万,可以查找网站、网页、新闻、网址、软件、黄页等信息。

*北大天网中英文搜索引擎(http:/e.pku.edu.cn/)

由北京大学开发,有简体中文、繁体中文和英文三个版本。提供全文检索、新闻组检索、

FTP检索(北京大学、中科院等FTP站点)。目前大约收集了100万个WWW页面(国内)和14

万篇Newsgroup(新闻组)文章。支持简体中文、繁体中文、英文关键词搜索,不支持数字

关键词和URL名检索。

2.关键词的使用

在整个搜索过程中,关键词可以说是整个搜索应用的基石。对普通用户和搜索引擎来说,关键词就是双方互动的媒介,难以想象如果不使用关键词,如何能达到快捷有效的信息查询目的。

正确使用关键词是成功搜索的前提条件。然而,在选择关键词的问题上,大多数人都认

···试读结束···

阅读剩余
THE END