《资源发现数智化》王仁武作|(epub+azw3+mobi+pdf)电子书下载

图书名称:《资源发现数智化》

【作 者】王仁武作
【页 数】 246
【出版社】 上海:上海交通大学出版社 , 2022.12
【ISBN号】978-7-313-28014-5
【价 格】69.00
【分 类】数据处理
【参考文献】 王仁武作. 资源发现数智化. 上海:上海交通大学出版社, 2022.12.

图书封面:

图书目录:

《资源发现数智化》内容提要:

在大数据与人工智能时代的大背景下,本书探索采用数据智能的方法对学术图书馆广泛采用的资源发现系统进行数智化改造升级。尝试构建了资源发现系统与政府开放数据的整合,为资源的丰富提供了借鉴;构建了基于深度学习的词向量扩展的语义检索系统模型,可以提高学术资源的语义检索服务;研究了资源发现系统的用户信息行为,并构建了用户画像,为图书馆洞察学术用户行为,进而为资源发现系统的进一步优化以及提高学术图书馆的管理决策水平提供了可靠的依据。

《资源发现数智化》内容试读

第1章资源发现数智化概述

1.1资源发现数智化的背景、目的与意义

资源发现(resources discovery)也即资源发现系统,是用户与非结构化资源(主要是学术资源)之间的端到端的解决方案,能为用户提供高效的资源发现与传递(resources discovery and delivery.)服务。资源发现系统将资源数据标准化处理后,采取预收割方式纳入元数据标准体系中。此外,资源发现系统的元数据标准体系还包括图书馆的馆藏资源,最终形成一个预聚合的元数据联合索引库,可处理包括图书馆自身的物理与数字馆藏、远程数据库、电子资源,以及开放

获取资源等丰富的资源内容四。目前,国外的资源发现系统主要有EDS、

Primo、Summon、WorldCat四种;国内主要有超星学术发现系统、文津搜索、e

读、读秀、CNKI学术搜索、百度学术等。随着数据智能时代的到来,学术用户对

信息资源及其服务的需求发生了较大的变化,而目前国内外图书馆资源发现系统在检索和服务方面还不能完全满足用户的需求。Google Scholar等学术检索平台的发展使得越来越多的用户转向图书馆外的在线学术平台,给图书馆资源发现系统带来了巨大挑战。

尽管资源发现系统以“简单、快速、易用、有效”的检索体验颠覆了传统的图书馆整合检索系统带给用户的感受,但随着大数据的发展和人工智能技术的不断突破,当前的资源发现系统还不能完全满足用户的需要。例如元数据还不方便扩充与集成[2,3]:没有对查询主题的结果做足够的直观系统的概述[,5):对用户使用的行为数据的分析及其应用很少涉及[6,]:检索结果的排序和个人理解和认知存在着较大的差异8,];检索结果集过于庞大,无法快速找到需要的

2资源发现数智化

信息1o,1

近年来,谷歌学术、百度学术和360好搜等学术搜索引擎愈发引起人们的重视。越来越多的用户在查找资源时更倾向于谷歌或谷歌学术等搜索平台,其查询免费、易用和良好的用户体验等特点也越来越受到用户的欢迎。Ithaka S十

R持续6年的图书馆调查表明,在2013至2019年间,本科生、硕士生和博士生

使用发现服务的数量每年均有不同程度的下降1)。

自2013年以来,不断有学者和机构开始探索资源发现系统的发展和改进,提出针对资源发现系统的优化建议。如林鑫1)等人构建了多源文献元数据模型,解决了资源发现系统中的元数据质量不足的问题。美国信息标准组织推出由Breeding14起草的白皮书,系统地讨论图书馆资源发现的未来,提出了通过

关联数据显露图书馆资源、建立更透明的发现系统API并对图书馆开放接口、

建立对富媒体资源和特藏资源的分析等建议,并提出了该组织的开放发现首创计划(ODI,Open Discovery Initiative)。中国国家图书馆首次尝试将资源发现系统与百度学术、豆瓣书评等第三方外部系统整合5],结合社交网络的功能,增强用户体验,增加用户黏性。韦艳芳等16提出构建流程驱动、用户角色和情景敏感的资源发现系统的思路,并介绍具体的实现方法。文献[17]以中国国家图书馆“文津搜索系统”为例,从资源整合、揭示到系统的检索功能及服务模式等方面,全面探索了提高资源发现系统服务能力的方法,包括硬件扩容、软件功能等方面对系统的优化与提升。

随着数据智能时代的到来,图书馆资源发现正处在发展的关键时刻。各种新的搜索技术、索引技术、语义技术和文本分析技术正在用于发现系统的研究。本研究提出构建基于数据驱动(数据智能)的图书馆资源发现平台,是在现有图书馆发现系统之上,通过对图书馆用户行为数据的实时动态分析,以及通过元数据增强整合更多内外部数据资源,建立更深层索引,初步实现语义化检索,个性化地服务“教学研”用户的应用平台。

具体目标:

(1)整合学术动态信息、开放存取资料等更多的资源,探索对图片音视频信息资源的利用。

(2)实现元数据增强与分布式索引,以便能够充分利用整合的新资源。

(3)建立用户画像与用户需求模型,以用户使用行为洞察促进对资源发现系统的优化。

(4)实现语义搜索与个性化的定制与推送、分析与预测功能,提升图书馆的

第1章资源发现数智化概述3

管理与决策能力。

研究意义:

(1)理论层面的价值在于:提出了数据驱动的资源发现思想,是理论上的创新。目前只有学者提出用数据驱动进行资源发现系统评估,以及个别文献谈到大数据与资源发现关系。但本研究将在资源发现系统的整合开发或改造流程中,贯穿数据驱动思想和方法。

(2)技术层面的价值在于:使用数据驱动的数据挖掘、文本挖掘、机器学习等方法,解决新资源获取、用户需求及反馈信息获取与挖掘:利用知识图谱来构建知识单元关系,建立资源语义整合模型,将机器学习中深度学习方法与关联数据相结合,以解决语义网和本体难以大面积应用的问题,提高资源发现系统检索效率。而更广泛深层的开放资源获取、用户需求及系统利用、系统检索功能三个方面正是当前资源发现系统所需要解决的关键问题。

(3)中间成果的价值在于:本研究中,将会对当前资源发现系统进行全面的评估及问题提炼;将会系统地调研当前图书馆用户的信息需求及资源发现系统满足度,这为当前多家正在引进资源发现系统的图书馆提供了采购参考也为资源发现系统开发商系统升级和改进提供了数据支持。

总的来说,本专著的研究内容,在理论层面,丰富和发展了资源发现理论;在应用层面,为资源发现开发商、正在进行资源系统改造及二次开发的图书馆、正在进行资源发现系统选型的图书馆,提供了技术手段及决策参考。

1.2资源发现数智化的研究思路与总体框架

在数据驱动的研究范式下,将图书馆管理的各种学术文献等当成数据资产,从先前图书馆与图书馆用户只重视“看数”,转变到“有数”“管数”“用数”的新的思维理念与工作方式。

“看数”从图书馆的角度看,只是为用户查看学术文献等资源提供服务;从用户角度看,只把图书馆当成可以查阅文献的场所。双方都没有足够重视数据资产的价值,图书馆无进一步的深入服务与用户洞察,用户没有充分利用图书馆的数据资源来辅助自己的教、学、研。

“有数”不仅指图书馆要有各类资源,不断丰富各类资源,更进一步是要从学术用户到管理人员,即各层次学术用户、图书馆的各层次管理人员,都要做到心里有数,要以数据的价值为导向,了解有关的学术资源数据产品,在个人的学习、

4资源发现数智化

研究中要善于利用这些文献数据,在图书馆的管理决策中要善于利用这些数据做到科学管理与决策。

“管数”是指要管理好这些文献数据,借助于大数据人工智能技术构建好的数据管理平台(资源发现系统):要能够管理各类数据资源,并引入目前流行的数据中台设计理念,追求文献数据管理质量上、效率上的提升。

“用数”是指要解决各类用户在文献数据服务上的需求,无论是学习、教学科研,还是大学生的创新创业项目与各类大赛都可以获得文献资源与数据资源等各类资源的支持。同时利用最新的数据智能技术,提供更加智能的语义检索技术、用户画像技术等让数据为每个应用场景提供价值。

因此,基于上述的思维理念与指导思想,本课题研究的基本思路:

(1)首先对现有的资源发现系统进行充分的调研、评测与比较研究。

(2)再研究其与用户需求的匹配情况,得出用户需要的资源发现系统的通用模型。

(3)然后研究这个模型中的关键技术,探究数据驱动的理论方法在这些技术中的具体应用,将机器学习特别是深度学习融入平台的功能建设中,加大各类信息资源的利用,实现元数据增强与分布式索引,初步实现语义检索功能

(4)最后利用合作的大学图书馆原有资源发现系统的用户行为数据,建立用户画像,构建用户需求模型,仿真实现以用户为中心的服务。

研究的总体框架如图1-1所示,主要由支撑层、核心层与应用层三部分构成。支撑层主要是资源发现系统的资源部分:软硬件资源和数据资源,软硬件资源可采用云计算模式,数据资源既包括馆内外的数字资源,又包括用户日志与用户行为数据等:核心层主要是利用数据驱动的理论方法实现对数据资源的获取与处理,对用户行为进行分析;应用层则是实现资源发现的检索功能,并为用户提供定制与推送、分析与预测服务。

1)资源管理与整合研究

现有的资源发现系统对于动态的学术信息、更多的开放存取的资料、教学讲义及公开课信息以及图片、音视频信息等的整合还比较欠缺。我们认为新的资源发现平台,需要扩大资源的整合范围以及加大资源的整合能力。为此需要研究新的资源的获取途径、获取技术、整合方式、存储及利用方法。

本研究中,需要从用户使用的历史数据中分析现有资源的满足程度,即利用数据驱动的方法动态地持续地完善资源建设。

第1章资源发现数智化概述5

热分析

平台构建与

趙势分桥

检索服务

定制与推送

分析与预测

应用研究

天联分桥酒

司新分桥帽

元数增强与

元数据(增强)与分布式索引

分布式察弱研究

源丰开放获取学木动态数学资料

摘要全高媒体信息计量信息引构建家接

调向量河典构营片识别知识图墙用户画像寄求分绿合评

数驱动方法

的应用研究及

用户行为研究

S

数据现动的理论与方法

数驾动的

理论方法研究

资源数据

参考库、知识库:

学术动态

用户日志

文本、图像

学术专业词库

数学资料

资源管理与

用户行为数漏

音视频。数据库等

作者库等

开放存取数据

资潭整合研究

软件硬件平台(或云计算平台)

研究内容

图1-1数据驱动的资源发现平台研究总体框架

2)元数据增强与分布式索引研究

仅仅基于元数据集中索引很难提供理想的资源发现体验,所以要研究在预先建立集中索引时,能够对增强的元数据进行索引。元数据增强是给元数据增加更多的内容,增强后的元数据包括开放数据、文献摘要及全文特征词等。

除了计量信息,这些增加的元数据内容需要用数据驱动的方法来获取和构建。例如语义词表的构建,要研究用机器学习来构建、更新词表,生成词表的分类聚类体系(概念集、概念间的层级和类别体系等),词表的关系族群(词汇和概念之间的关系/联系等)。

研究利用开源软件,例如Solr、Elastic Search来构建增强元数据的索引并提供检索接口。

3)数据驱动相关技术的应用研究

研究数据挖掘、文本挖掘、机器学习等在资源建设、资源处理、资源利用以及用户行为分析等方面的应用。重点研究机器学习中的深度学习方法在自然语言处理与理解、文本语义处理、图片视频处理方面的技术与应用。

4)用户行为分析与个性化服务研究

研究整合用户行为数据,进行用户画像、用户需求分析:根据用户身份和层

6资源发现数智化

次,提供个性化的检索结果,并进行分类整理;对分类后的结果能够进行多维度分析,例如对研究主题相关的知识点提供深入、准确分析,扩大思维范围;对关联的知识或文献进行有序组织;为用户提供跟踪服务,精准推送用户个性化的最新科研情报。

5)资源发现平台的构建及应用优化建议

提出基于数据驱动的资源发现平台的优化建议方案,研究实现语义检索的相关技术;研究用户个性化定制与推送技术,实现对用户行为和用户检索相关的学科主题热点与趋势的分析,对学术资源进行关联规则挖掘、层次聚类、多维尺度分析等,提升分析服务质量与水平。

为了进一步明确与聚焦研究内容,我们对资源发现系统的使用情况与研究情况进行了必要的调研。本章中的1.3节与1.4节对相关调研进行了汇报和分析。

1.3资源发现系统使用情况调研

随着学术研究的飞速发展以及学术资源数据的爆发式增长,图书馆的学术

资源查询与搜索系统从OPAC系统(针对馆藏资源)→数据库导航系统→数据

整合系统→现在的资源发现系统,在不断升级以满足用户对学术资源查询效率与准确的要求。在聚焦研究内容之前,我们对资源发现系统进行了全面调研,旨在找出现有系统的优点与不足,抓住用户痛点,针对调研结果制定研究内容并进行实验,提出改进和完善资源发现系统的实际可行方案。

初次调研在2016年底,在撰写这份研究报告过程中,又补充了调研数据。截至2020年11月的数据,全国39所“985工程”高校,均拥有资源发现系统。在《高校图书馆资源发现系统中文检索性能比较分析》]一文的基础上,借助

Primo、Summon官网19,2o]的订阅用户表、各大学图书馆网站,对各大学的资源发现系统使用情况再次进行验证和更新,得出了表1-1的内容。

表1-1国内“985”工程高校图书馆资源发现系统使用情况

高校名称

内部名称

发现系统

高校名称

内部名称

发现系统

清华大学

水木搜索

Primo

浙江大学

求是学术发现

Summon

北京大学

未名学术搜索

Summon

南开大学

南开搜索

EDS

···试读结束···

阅读剩余
THE END