《《汉语主题词表》构建研究》曾建勋著|(epub+azw3+mobi+pdf)电子书下载

图书名称:《《汉语主题词表》构建研究》

【作 者】曾建勋著
【页 数】 154
【出版社】 北京:科学技术文献出版社 , 2020.07
【ISBN号】978-7-5189-6948-7
【价 格】48.00
【分 类】《汉语分 类表》-研究
【参考文献】 曾建勋著. 《汉语分 类表》构建研究. 北京:科学技术文献出版社, 2020.07.

图书封面:

图书目录:

《《汉语主题词表》构建研究》内容提要:

《汉语主题词表》的编制是一项基础性、公益性、持续性工作,还需要持续建设和维护下去。本书既是在记录《汉语主题词表》发展过程和构建流程,又是在传载《汉语主题词表》知识组织基础意识和方法。本书在回顾《汉语主题词表》起源和历史作用之后,分析了《汉语主题词表》在新形势下的内涵与框架、形态与构成、编制与应用等变化,并从基础词库、范畴体系、概念建设、语义关系构建,以及服务和应用模式等方面进行具体论述。本书适合高等院校、科研院所图书情报学师生教学参考,也可供信息组织专业或相关领域研究人员参考使用。本书探讨了《汉语主题词表》的可持续发展机制,为网络环境下新型《汉语主题词表》的编制提供了思路和借鉴,具体一定的社会效益。

《《汉语主题词表》构建研究》内容试读

第1章

《汉语主题词表》历史作用与现实挑战

从人类社会产生以来,传播知识的一个重要途径就是文献记载。由于各类文献不断增多,需要有效的整理、组织,以便于检索,而主要的文献检索方法就包括主题法,其作为一种重要的知识组织方法,在提高信息检索的检全率和检准率、提供基于主题的知识关联和知识导航框架、机器的自动语义理解计算等很多方面都发挥着重要作用。因此,主题词表是一类潜在的具有高应用价值的语义资源。主题词表又称叙词表,是将自然语言转换成规范语言的一种受控的结构化词表,其作用在于指导用户选择合适的主题词或其组合来表示既定的主题。它概括了各门或某一门学科领域知识,并由术语表达的概念及语义关系构成。术语表达概念,语义相同的不同术语指称同一个概念;概念之间建立等级关系和相关关系等,概念及其关系构成了主题词表的知识网络。《汉语主题词表》(以下简称《汉表》)作为汉语类主题词表的最典型代表,是当今世界上最大规模的综合性中文主题词表。

1.1我国主题词表发展概况

1934年我国诞生第一部主题法词表一沈祖荣的《标题总录》,该书以《美国国会图书馆标题表》为蓝本,结合中文书籍需要而编制①。1949年以来,

一直到20世纪50一60年代,分类法研究成果比较突出,主题法研究相对较弱。1964年我国编制的《航空科技资料主题表》(第1版)®是我国第一部实用型标题表,1971年编制的《航空科技资料主题表》(第2版)则成为我国第一部主题词表。1980年我国出版《汉表》之后,各专业领域的中文主题词表陆续开始

①刘湘生.主题法的理论与标引M).北京:书目文献出版社,1985

②张琪玉,丘峰,翟风岐.情报检索语言论文选M.北京:书目文献出版社,1990.

-1-

《汉语主题词表》构建研究

编制和使用,20世纪80年代主题词表在我国发展到鼎盛时期,出现了以张琪玉《情报检索语言》为代表的大学经典教材①。截至2019年,我国的主题词表已达150多部。图1-1显示了我国历年编制的主题词表数量,编制工作主要集中在1981一1995年,共编制了90多部不同规模的主题词表,在数量上产生了一个明显的峰值,占总编制量的64%。我国主题词表有修订版本的共57种,占全部词表的38%,主题词表版本修订的平均时间间隔为10年。将最后版本为近10年出版的主题词表界定为“活跃词表”,我国150多部主题词表中活跃词表有14种,占全部主题词表的9%。可见,虽然我国多年来编制的主题词表已经积累到较大规模,但大部分主题词表已基本处于无维护状态,相对比较活跃的主题词表仅有十几种。

40

30

爱3

20

15

10

1971-

1976

1981-

1986-1991-1996-2001-2006-2011-2016

1975

1980

1985

1990

19952000

2005

2010

2015

年份

图1-1我国主题词表编制数量与年代发展趋势

下面介绍我国主题词表的现状②。如前所述,我国70%的主题词表已基本处于弃用状态,只有9%的主题词表相对活跃。事实上,是不是“有用”还不是主题词表被冷落的原因,中文主题词表面临的困境是对新信息环境和技术环境的不适应,主要表现在以下方面:①主题词表编制与维护投入大、周期长。我国主题词表更新周期平均为10年,很难与日新月异的科技发展速度相适应。

②正确、熟练使用主题词表进行文献标引和检索需经过专门培训和学习,对用户有较高要求。人工标引成本高、效率低,很难适应当前的文献信息增长水平。

③我国绝大部分主题词表没有电子版本,在网络上也没有提供服务,印刷版主

①张琪玉.情报检索语言M).武汉:武汉大学出版社,1983.

②吴雯娜.我国叙词表的编制历史与发展模式[).情报理论与实践,2018,41(6):43-48.

-2-

第1章《汉语主题词表》历史作用与现实挑战

题词表由于其特殊用途一般只在图书情报机构有收藏,普通用户没有机会接触和使用主题词表。难理解、难维护、难获取、难利用是原有主题词表发展中面临的重重障碍。

经过几十年的发展,主题词表已成为成熟的信息组织工具。虽然我国主题词表发展状态总体不够理想,但也有少量主题词表在持续发展,积极探索新的发展模式,如《军用主题词表》《国防科学技术叙词表》《中国分类主题词表》等。《军用主题词表》于1991年编制出版后即作为军用标准在全军范围进行培训和推广使用,之后陆续编制了《军用主题词表使用手册》《军用主题词释义词典》《军事文献主题标引规则》等辅助工具,帮助用户理解和使用主题词表。为方便用户查询和使用词表,先是开发了数字版,又于2006年开发了辅助标引系统。技术辅助、宣传培训的加强保证了《军用主题词表》在军队系统内得以应用。《中国分类主题词表》(1994年)是在《中国图书馆分类法》(第3版)和《汉表》(1980年)的基础上编制的分类主题一体化词表,由国家图书馆牵头,全国38个图书情报单位参加了编制工作①。《中国分类主题词表》采用分类主题

一体化的集成模式,在不同类型的知识组织体系即分类法和主题词表之间进行映射。这样做的好处是,在文献标引加工时只需对文献进行一次主题分析,即可实现文献分类号与主题词的相互转换,降低了标引工作的难度和工作量,有利于提高标引工作效率。普通用户可以从分类号查主题词或从主题词查分类号,减轻了用户多次查阅不同工具的负担。

在当前网络环境下,随着大数据时代的到来和人工智能领域研究的兴起,主题词表的规模、语义关系描述方式、编制方法、服务模式和应用方向等都发生了相应的变化,显示了其作为成熟的语义工具依然在不断发展;主题词表新的发展趋势,又推动着对其研究的不断深化。

1.2

《汉语主题词表》发展历程

《汉表》是我国第一部大型综合性主题词表,是我国情报界和图书馆界众多机构和专家的集体智慧结晶。它覆盖各个学科,在我国情报检索语言发展历史中产生并起到了积极的作用,是理论研究与实践应用相结合的里程碑式产物。《汉表》至今共经历了3次大的编制,形成了3个对应的版本。

《汉表》第一版于1975年开始编制,由我国实施的“汉字信息处理系统工程”

①曾立纯.我国分类主题一体化的尝试:编制中的《中国分类主题词表》[).图书与情报工作,1989(2):22-26.

-3-

《汉语主题词表》构建研究

(又称“748”工程)支持,以中国科学技术情报研究所(现中国科学技术信息研究所)和北京图书馆(现国家图书馆)为代表的大型图书情报机构共40多家单位合作攻关,于1980年出版,分为社会科学、自然科学和附表3卷,共10个分册,全表收录主题词108568个。第一卷(2册)为社会科学部分,第二卷(7册)为自然科学部分,两部分均包括字顺主表、范畴索引、词族索引和英汉对照索引,第三卷为附表,包括世界各国政区名称、自然地理区划名称、组织机构名称及人物名称。该版本的《汉表》是我国情报界与图书馆界20世纪70年代集体协作的智慧结晶。由于它覆盖了各个学科专业,收词量大,编制体例规范,主题标引规则通用性强,推动了我国主题标引工作的开展,在促进计算机文献数据库的建立,以及专业叙词的编制、发展与完善方面,都发挥了极为重要的作用,于1985年获得国家科学技术进步奖二等奖。该表的编制是我国的一次大规模编表实践,确立了我国主题词表的主要编制原则和方法,逐步建立了我国主题词表的相关标准。

《汉表(自然科学增订本)》由中国科学技术信息研究所继续沿用《汉表》编制方法,以《汉表》第一版的自然科学与工程技术部分为基础,进行词汇和关系的修订。该表可视为《汉表》第一版的分化版本,于1991年出版,对第一版增补新词8221条,删除不适用词5434条。增订后主表共收录主题词81198条,其中,正式主题词68823条,非正式主题词12375条。增订本使用计算机订正了原表词间关系的逻辑错误,对中英文词条做了订正、优选及补遗,同时改进了编排形式,将第一版的7个分册合为4个分册,方便用户使用。

《汉表》促进了我国主题标引工作的开展,对文献进行主题标引时可使用《汉表》作为指定的主题词表,从中选用统一而规范化的术语,指明文献内容的主题,而后可用于文献的检索。《汉表》推动了专业主题词表编制、发展和完善,在《汉表》出版后,国内陆续出版了百余部中文专业主题词表①,这些主题词表在编制时大多抽取了《汉表》中相关专业的术语概念和语义关系,并参考《汉表》的结构和显示方式®,是对《汉表》的继承和发展。

1.3

《汉语主题词表》研究现状

由于《汉表》的影响力不断增加,许多学者围绕其展开了各方面的研究。本节通过对文献的梳理,旨在突出当前学者研究的热点。

①鲍秀林,吴雯娜.中文叙词表发展概况和性能测评(1980一2009)[).图书馆论坛,2012(4:101-106.

②洪漪.论《汉语主题词表》的现代化改造及其发展前景[).大学图书馆学报,1992,103):23-26,

-4-

第1章《汉语主题词表》历史作用与现实挑战

1.3.1从关键词共现角度的现状分析

关键词共现以网状图的模式反映两个词语之间的语义关联,揭示本领域的研究热点和发展趋势。本书以“汉语主题词表”相关论文的关键词为研究对象,将不同形式的关键词按概念进行合并,如“主题词表”和“叙词表”、“语义wb”和“语义网”、“Ontology”和“本体”等,并对共现次数达到10次以上的关键词进行统计。在对“汉语主题词表”相关论文关键词进行共现分析之后,再分别对《汉表》构建和应用相关论文关键词进行分析,反映二者研究侧重点的异同。

对关键词进行统计,共得出4798个关键词,利用CiteSpace软件对共现次数达到10次及以上的关键词进行统计与可视化展示(表1-1、图1-2、图1-3),并对关键词进行突发性检测。图1-2中线的粗细反映了共现的次数,可知《汉表》建设及服务方面研究集中的领域。

表1-1“汉语主题词表”相关论文高频关键词词频统计

排名

关键词名称

词频

排名

关键词名称

词频

1

主题词表

1100

6

检索词

108

2

主题标引

375

7

本体

94

3

检索工具

262

8

范畴索引

88

4

标引人员

137

9

分类主题一体化

85

情报检索语言

128

10

情报检索

82

标讲文献文敏内间书馆打采、1演索明

周5章具中国图5馆分类认》交义组配标利少领为系文献1m标明理则电国分者分研分体

中时分和叫士尺1m险图分士

主题词表1

数?附

领孙体不体1海词

闻气类表

标明深厦

野必知1动到时有是

木体构建

元最

图1-2《汉表》关键词共现图

-5-

《汉语主题词表》构建研究

从表1-1和图1-2可以看出,检索和标引是《汉表》应用相关论文中最基本的研究方向,相关学者集中于研究汉语主题词表的正确标引和组配,并将汉语主题词应用于情报检索语言。说明《汉表》应用的领域还以较为传统的检索、标引领域为主,一些新兴的研究方向如知识组织、语义检索等方面也出现在共现网络中。

对《汉表》研究的关键词进行聚类分析,如图1-3所示。可以看出《汉表》相关研究主要分为本体、主题标引、分类主题一体化、检索工具、医学索引、档案主题标引6个主题大类。

0本体

#2分类主题一体化

#4医学索引

3检索工具

#5档案主题标引

#1主题标引

图1-3《汉表》研究的关键词聚类

1.3.2从关键词时间分布角度的现状分析

为了更好地分析《汉表》研究的关键词变化情况,利用CiteSpace制作时间线图谱(图1-4),分析每年研究内容的变化情况。

本体。1994年词间关系进入研究者视野,为后续的知识组织、本体等相关的研究奠定基础。2004年,知识组织的出现使《汉表》进入了一个新的发展阶段,语义网、互操作、集成化和术语服务等研究方向的出现让主题词表走向更深入的知识组织时代。

主题标引。1984年主题标引开始被研究者关注,标引人员也成为同一时期相关研究热点;20世纪90年代初期,自动标引是主题标引新出现的研究方向,而在90年代后期,部分学者开始对标引深度进行研究。

-6-

···试读结束···

阅读剩余
THE END