《汉语报刊新闻主题词群提取及相关研究》史艳岚著|(epub+azw3+mobi+pdf)电子书下载

图书名称:《汉语报刊新闻主题词群提取及相关研究》

【作 者】史艳岚著
【页 数】 313
【出版社】 北京:光明日报出版社 , 2021.04
【ISBN号】978-7-5194-5878-2
【价 格】98.00
【分 类】新闻标题-新闻语言-研究
【参考文献】 史艳岚著. 汉语报刊新闻分 类群提取及相关研究. 北京:光明日报出版社, 2021.04.

图书封面:

图书目录:

《汉语报刊新闻主题词群提取及相关研究》内容提要:

本书以对外汉语报刊新闻教学改革为动因,以中国主流报纸动态流通语料库为研究基础,对报刊新闻资源库进行了初步建设,基本形成一个多层级的报刊新闻分类资源库。该资源库对报刊新闻文本按领域进行分类,利用计算机语言信息处理技术对文本进行分词处理和统计,得出各类领域词表。再利用通用词表永磁会分离的方法提取了各领域一级、二级子领域、子领域中更下位的三级主题词群。本书还对主题词群和报刊新闻主题教学的关系进行了探讨,对主题词群提取的准确度进行了测试,也初步探索了报刊新闻文本的主题相关度和难易度的测量方法,为报刊新闻教学提供了一个科学、实用的研究平台,同时也为词汇研究探索了一条新的研究思路和方法。

《汉语报刊新闻主题词群提取及相关研究》内容试读

第一章

绪论

第一节写作缘由

随着国际汉语教学推广进程的加快,对教材编写以及汉语数字化教学资源建设的需求日趋迫切。目前无论传统的纸版本教材,还是依托多媒体网络技术的数字化教学资源,最重要的是如何确定汉语教学内容。汉语教学内容包括教材用字、词汇、语法点、句型,以及话题、篇章、文化。这些内容是教材与数字化教学资源的核心。越来越多的研究表明,与这些语言要素教学和言语技能提高密切相关的因素并非一成不变,而是随着社会发展、科技进步、文化嬗变而变化的。基于教学和科研的需要,北京语言大学建立了动态报刊新闻语料库,该动态语料库能够追踪词语发展的轨迹,其研究成果反映了当代语言生活的动态变化。其成果之一是以年度出版的《中国语言生活状况报告》,每年都在记录着中国语言的状况、发展和变化。

在信息化的今天,语料库的建设和研究工作越来越成熟,为语言研究的进

一步深化做出了贡献。对外汉语报刊新闻教学面临着与时俱进的要求,本书的目的是利用信息处理技术提取报刊新闻通用词语,利用词汇分离技术获得主题词群,分析研究主题词群的主题特征。在新闻报刊课、当代话题课、热点评论课等专题性强的课上让留学生掌握具有向心性、网络性的主题词群,不仅可以加深他们对词语社会文化内涵的理解,也能有效地提高对外汉语教学的质量和效果。

词汇教学在汉语国际教育中占有重要的地位,词汇掌握的数量和质量都决定着学生的汉语水平。然而报刊新闻课的词汇教学一直是一个薄弱环节。从北

汉语报刊新闻主题词群提取及相关研究>>>

京语言大学汉语学院报刊新闻课的调查情况来看,报刊新闻课教学效果不令人满意。留学生认为报刊新闻课教材太旧,所教的词语对现实的读报帮助不大,特别是缺少新词语,生词表中有的词太容易,有的词又太难。听不懂新闻、看不懂报纸的拦路虎就是词汇量太少、缺乏专门的新闻词汇。因此词汇教学成为报刊新闻教学的一个瓶颈。对外汉语教学中高级阶段的报刊新闻课是让学生在已有的汉语基础上开阔视野,拓宽知识面,了解中国社会的国情和各方面的现状,词汇量迅速扩大。但是现有报刊新闻教材中课文内容难度不一,所列生词往往缺乏实用性和系统性,容易加重学生的记忆负担,影响教学效果。而且学生习惯于孤立地一个词一个词地死记硬背,这种单个地、孤立地学习词汇的方式使留学生不仅费时费力,而且低能低效。因此本研究探讨如何提取适用的报刊新闻主题词群,以主题为线索,构建主题词语网络,使学生不断扩大词汇量,在最短的时间里掌握最有效的表达某一主题的词语。让学生从主题词群中概括出同一类新闻的重要关键词,从而减少新闻听力和阅读理解的障碍。

第二节研究背景

一、汉语国际教育报刊新闻教学的需求

汉语国际教育报刊新闻课的教学有其自身的特点。报纸媒体作为信息的输出渠道,报刊新闻涵盖社会生活的方方面面,可以说包罗万象,内容和题材多种多样,有无限的延伸。教学时如果眉毛胡子一把抓,势必造成词语繁杂、无法突出教学主题。报刊新闻教材内容应以主题选编,比如包含如下领域,如经济、外交、教育、体育、科技、文化、生活、环境、资源、卫生、人口、妇女等,然后按主题进行教学。教学的主题集中,每一个主题的词语都有其向心性。在每一课的词语中,既有各领域通用词语,也有本领域共用词语,还有某一主题的专用词语。因此有必要应用词汇分离技术,将通用词语分离出来(这些是常用基本词汇,在汉语综合课和其他课程中都已经解决了的词语),将领域共用词汇提取出来(报刊新闻基本常用词),最后提取某一主题的专用词语(服务于中高级报刊新闻教学和高级口语、当代话题、热点评论等课的主题教学)。在此基础上不仅可以在同主题文本集中提取任一主题的词群,而且针对任何一篇文章都可以提取该文本主题词群。在主题专用词语中围绕主题中心的词语之间是

2

<<

有联系的,如“丁俊晖现象”中的主题词群是“丁俊晖、斯诺克、台球、夺冠父亲、自主培养、读书无用论、赌博、教育模式、孤注一掷、技能型人才、一技之长、出类拔萃”,基本能够体现出“教育一人才一丁俊晖现象”这样一个主题文本中词汇的网络性。

根据心理学家研究,词汇在人的大脑中是以网络的形式来储存的。人的大脑对词汇的记忆犹如一个网络:网络上的一个个结点代表着所学过的词语概念而网络上的一条条经纬线则表示词语意义的纵横联系。词汇的网络性似乎存在于人们的大脑机制中,计算机能否通过定性和定量的方法提取出主题内相互关联的词汇?本书要尝试的主题词群提取工作正是试图找寻词汇的网络性,从大规模语料中提取围绕某一主题的一些向心性的词群。这个主题词群是一个与主题高度相关的网络,可以将主题词群运用在对外汉语报刊新闻主题教学中,在教学改革方面做一些有益的探索。

在词汇教学中应该有意识地把词汇的网络性同人的认识规律性结合起来。报刊新闻主题词群的研究试图用基于大规模语料的统计分析方法提取主题词群,研究同一主题下相关词汇的网络性和向心性,揭示和强化主题词群的网络性让学生把对词语的新知和旧知、已知和未知联系起来,以期帮助学生有效地把各类词语信息网络输入大脑,储存于记忆库,从而提高学生掌握词语的效率。研究报刊新闻主题词群,利用词语的主题特征进行报刊新闻教学,并将报刊新闻主题网络系统融入教材编写中去,这不仅是解决教学难点的一个策略,也是提高对外汉语报刊新闻教学效果的一条途径,同时对其他汉语国际教育的课程也具有重要意义和参考价值。

二、关于报刊新闻主题教学的探索(一)主题图和知识网络

近年来,随着知识管理理论的快速发展,出现了概念图(concept mapping)、主题图(topic map)等构建知识网络的方法。

概念图是描述相关概念之间的相互关联形式。Hownet重点研究的就是概念间的相关性。主题图的核心思想:目的在于将某一主题范围内的各主题及单一主题内的附属子题列出,并建立参照关系,将具有关联性的主题加以连接。对主题图而言,最重要的是找出资源之间的主题及主题之间的关联性,建立一个完整的知识架构体系。它可以是一组相关主题术语的集合,这些术语代表了某

3

汉语报刊新闻主题词群提取及相关研究>>>

个特定主题的内容和分类。将存在于主题之间的各类关系,透过联系的组织与联结后,将形成某一领域知识的知识网络。

主题图将知识结构图分为两层:资源域和主题域。其中资源域包括所有的信息资源,如电子文档、数据库文件、网页、电子书籍等:主题域是在资源域之上定义,包括所需的所有主题,如资源的名称、特性、类型等信息。这些研究成果对建立报刊新闻知识体系有一定的启发,有助于报刊新闻资源库的建设。

(二)建立报刊新闻资源库

将知识组织起来建立资源库,是知识管理的一项重要手段。传统的资源库,资源单元之间主要采取层级浏览(hierarchical browsing)的导航方式,根据知识

的结构,一层一层以树形的方式排列。如美国资源门户网GEM提供以学科主题

浏览教学资源的方式。将所有资源按照艺术、教育技术、哲学、语言等大的学科门类排列,每个学科下再设子学科,如艺术分为建筑、戏剧、舞蹈等子学科用户可以根据资源库的结构一层一层浏览,寻找需要的内容。这种导航方式最大的缺点在于用户只能根据资源库的管理者设定的知识层次进行寻找,知识关系除了垂直的上下级关系外,缺乏不同层级之间单元主题的关联。主题地图采取关联浏览(associative browsing)的资源导航方式:资源主题之间具有丰富的关联(association),一个资源主题可以指向一个,也可以指向多个资源对象。反之,一个资源对象可以与一个,也可以与多个不同的资源主题建立联系:主题之间的关联为资源库中的资源单元提供一种平行关系。从一个主题出发,可以迅速地进入该主题指向的所有资源,并可以通过主题之间丰富的关联,在任意感兴趣的主题中随意漫步,进而选择相应的知识资源。

报刊新闻资源库的建设目标是:既可以采用层级关系的浏览形式,便于分级分类;也可以采用关联浏览的资源导航方式,在不同主题间建立联系。而后

一种导航方式更有利于主题教学。

主题词群的研究是在按领域分类的报刊新闻资源库基础上进行的,从不同的领域中提取各领域的主题词群。要考察领域和领域之间的关联,词群和词群之间的关联,词语和词语之间的关联;考察上位领域主题词群和下位子领域主题词群之间的关系;考察主题词群与各领域之间的联系(词语的领域覆盖情况),通用词语与各专门领域词语之间的关联;等等。

某一词语和各个领域关联得越多,该词语的通用性越强;和其他领域关联得越少,该词语的专用性越强。该结论的得出可以参考词语通用度。本研究的

<<

重点在探讨词语的专用性,也就是某一主题的专用词语的个性特征(类区别特征)。

(三)报刊新闻主题教学

对外汉语教学中的报刊新闻课是一种“主题教学”(theme-centered teach-ing,thematic instruction),围绕某一主题设计核心知识网(a core knowledgewb),将相关学科相互联系起来,在特定教学时间内集中讲授某一中心主题。以核心主题为中心可以有很多子主题,每一个子主题可以独立存在,也可以相互联系,满足不同层级的教学要求。初级水平的教学可以选择单一主题内的单

一文本进行学习,如一篇内容为“汉语热”的报刊文章,文章的核心主题是“汉语热”,内容集中在介绍目前全球汉语热的现状,文章同时包括经济、消费文化、就业等相关信息,但内容简明扼要,用词简单,只要求重点掌握“汉语热”的核心内容即可;而中高级水平的报刊新闻教学中“海外留学”这一主题则可以有相应的扩展学习,不但有多文本的学习,还有延伸阅读,甚至在该主题下有不同难度级别的阅读文章可以进行课后评价。其核心主题“海外留学”之下还有更多的子主题,如“低龄留学”“留学垃吸”“海归”“海外竞富”“文化差异”等,和社会、经济、外交、文化等其他领域都有关联,从而使学生可以在短时间内全方位地了解中国教育中的“留学”主题。

报刊新闻的每一课都有核心主题,每一个主题都与其他主题之间会有千丝万缕的联系。如“2008年北京奥运会”有“科技奥运”“文化奥运”“绿色奥运”等子主题,因此和科技、文化、环境、经济领域都有交叉,形成一个以“北京奥运”为中心的知识网络。从教学的角度而言,资源库中“体育”主题下最核心的是体育比赛或运动会,其他与体育相关的信息可以在资源库中的其他主题下随时调用。所以每一个主题都可以涉及丰富的内容,但是并不涵盖所有的内容,核心主题是根本,其他相关内容可以链接到其他的领域知识库中。

报刊新闻的主题教学立足于核心主题,要研究与核心主题相关的特征词语,提取与某一主题相关的词、短语以及固定的表达形式的集合。这是一个以核心主题为中心的开放的词表,它围绕核心主题以稳定的基本词汇、短语为基础,随时准备有新词语的加入。这样的专用主题词表对报刊新闻教学有良好的指导作用。

对外汉语报刊新闻教学面临着与时俱进的要求,如果能充分利用信息处理技术促进报刊新闻主题教学,分析研究在表达同一主题时的聚类特征词语,让

6

汉语报刊新闻主题词群提取及相关研究>>>

留学生掌握同一主题下词语的网络性特点,不仅可以加深留学生对词语社会文化内涵的理解,也能有效地提高对外汉语教学的质量和效果。报刊新闻课的主题教学需要报刊新闻资源库的支持,在该分类资源库下提取适用的报刊新闻主题词表,以主题为线索,使学生不断扩大词汇量,在最短的时间里掌握最有效的表达某一主题的词语。因此有必要建设一个适用的报刊新闻资源库,以满足对外汉语报刊新闻教学的需要。

对外汉语教学的报刊新闻课以“主题教学”为特色。如“体育”主题下可以有:奥林匹克运动会、各项专业竞技比赛、体育经济、体育彩票…而其中奥林匹克运动会和各项专业竞技比赛、体育经济之间都有关联。2008年北京奥运会和“科技奥运”“文化奥运”“绿色奥运”有关联。同时也会带动相关产业的发展,如旅游、交通、服务、信息网络、餐饮。所以每一个主题下可以涉及丰富的内容,但是并不涵盖所有的内容,其他相关内容可以链接到其他的领域知识库中。所以报刊新闻教学资源库的建设和主题词群研究可以为“主题教学”打下良好的基础。

三、语言信息处理的相关技术

1.领域相减

王强军、李芸、张普在《信息技术领域术语提取的初步研究》一文中介绍了对信息技术领域术语自动提取方法进行的一项实验,所采用的是“领域相减”的术语提取方法,即根据流通度理论,利用术语在不同领域中的不同流通度值进行术语提取,并对此项实验的结果做出了评价。

2.语义距离

语义距离是语言学中经常提到的一个概念。一般说来,两个概念间的语义距离越近,它们的语义相似程度越高;反之越低

语义相似度:是两个词在不同的上下文中可以互相替换使用而不改变文本的句法语义结构的程度

先度量概念间的语义距离,然后把它转化为语义相似度。所有的概念被组织在一个子类层次树中。要度量其中任意两个概念的语义相似度,可以先计算这两个概念在层次树中的语义距离,然后再转换为相似度。

3.特征提取

常用的特征抽取的方法如下。

6

···试读结束···

阅读剩余
THE END