图书馆资源发现系统应用研究

1.资源发现系统的现实需求

1.1图书馆信息环境的变化

我院图书馆通过采购、联建与自建的方式拥有了相当规模的电子馆藏资源,并通过校园网为读者提供服务,大幅度提高了满足读者信息需求的能力。但如何整合已有的电子资源,为读者提供一个简单的的并且功能强大的资源利用环境,是我馆也是整个图书馆界亟待解决和研究的课题。在这种背景下,图书馆资源发现系统应运而生。

资源发现系统与联邦检索的主要差别在于资源发现不用对外部资源进行实时检索,而只需检索预先存储在自身巨大的中央索引中的元数据和全文信息,因此检索速度较跨库检索快。在某些程度上,资源发现被认为是联邦检索的进化,具有无可比拟的巨大优势。

1.2 用户信息搜索行为的变化

Summon Lusion公司的一项研究表明,新时代的读者喜欢独立地寻找信息,他们不问问题、希望匿名、希望所有的搜索系统都能像Google、Bing一样是开放式的。他们深受网络搜索引擎影响,要求资源查询容易使用,要求快速得到查询结果,要求立即得到全文资料,拒绝使用需要思考的查询方式。尽管由于军校特殊的环境使学员不得不使用校园网作为查找资料的选择,但调查问卷显示,30%的读者认为数字图书馆不好用,超过90%的读者希望获得更简单的搜索方法而无需高超的搜索技巧和理解检索术语的压力。

1.3 资源发现系统在高校图书馆中的应用现状

自2007年开始,国外图书馆与数据公司对资源发现系统进行了探索并开发出了相应的应用,如Worldcat local、Primo、Summon、EBSCO Discovery Service等。2009年一项针对美国ARL的100所高校图书馆成员使用新一代资源发现系统情况的调查显示,已有超过三分之一的高校成员馆采用了新一代资源发现界面。国内的不少高校图书馆的资源发现系统都已投入使用,军内的国防大学、空军指挥学院等图书馆也都开发了相应的系统。越来越多的图书馆正准备或已经采用资源发现系统,可以说资源发现系统取代过去的整合检索系统已成为必然的趋势。

2.图书馆资源发现系统建设与实施的策略

面对各系统开发商提供的不同产品,图书馆在系统规划、选择、建设的过程中有一些细节需要注意与思考。

2.1 从读者需求的角度

无论是自行开发还是引进,图书馆在资源发现系统的规划设计阶段就应该树立以用户为中心的设计思想。密歇根大学图书馆在实施资源发现系统时,采用一系列以用户为中心的研究方法,构建了一个以用户为中心的资源发现环境。该馆积极鼓励用户参与到资源发现系统应用与实施的整个决策过程中,在需求调查阶段采用角色扮演、预演和模拟的方式获得用户需求和期望以及对于推荐系统的评价信息;在系统实施阶段采用满意度调查和可用性测试方法收集可用性数据对Summon系统进行评价;在系统实施后阶段采用问卷调查和使用统计来评估馆藏利用率的变化和用户期望的满足程度。

2.2 从资源整合、揭示、发现和获取的角度

第一,它必须是基于读者的文献资源利用过程和需求,不仅是资源的检索平台,更是资源的发现平台。第二,检索结果可筛选和精简,如相关度排序、文献资源状态等,读者可以根据当前结果不断调整自己的操作,以获得更好的结果。第三,它能深度挖掘现有书目数据中的可利用信息,如:基于分类主题的、逐层的资源推荐和显示,关键词自动扩展检索。

2.3 从服务和应用的角度

它应从多途径、多层次、多角度整合和揭示资源,它是汇集Web2.0技术的学术信息、学科服务和协同创作平台,应用系统界面须简洁、易操作、个性化,包容各类网络应用工具,能够有嵌入式的学科化服务功能,如科研信息分析分析与动态追踪,学科专业资源信息推送和导航,个性化研究咨询等。

2.4 从整合图书馆工作的角度

相比于纸质资源的加工,图书馆从事数字资源加工的人员少得可怜。数字资源也需要整序、揭示、评估和推广,所以引进发现系统并不是一个简单的购买行为,而是管理重心的转变和业务流程的重组,需要对本馆资源进行清晰的梳理。数字资源的状况随时都在变化,需要有专门的管理人员进行维护,需要确切了解用户需求以调整发现系统的配置,也需要和商家合作进行更深入的数据挖掘和分析。总之,图书馆不能是一个简单的购买者,而应该是系统需求的制定者和产品发展的主导者。

3.我馆资源发现系统体系构建

我馆的资源发现系统以信息资源的利用为出发点,以信息资源的发现为主旨,实现一站式信息资源、发现和获取,整合各种学术资源。其核心承载模块包括:元数据收割、数据存储、索引服务、搜索引擎、数据库管理、虚拟库提取、数据分析、信息推送、访问监控等后台服务模块。

3.1 元数据收割与数据存储

利用基于OAI―PMH协议的收割工具收割支持OAI―PMH的开放资源的元数据至数据仓库,对于不支持OAI―PMH的数据库,可利用基于网页分析的spider工具抓取元数据至数据仓库。本系统数据存储使用自定义的文件格式进行存储,如图1所示:

管理信息文件采用定长的字节存储,便于定位寻址。元数据信息文件和数字对象文件以新增替代修改原记录的更新方式,避免在文件内部形成记录碎片,造成读性能下降。

3.2 编制索引与搜索服务

搜索依赖于索引进行工作,将用户的请求转化为具体的结果集和引导信息返回给用户,并提供时间和相关度的综合排序。虽然集中索引的制作耗时较长,但可以支撑数以亿计的数据记录,因此系统采用集中索引方式。具体到字段的索引类型,分为两类,一类是分类索引,分类索引用于分类导航,或者辅助减小分词索引的检索范围;另一类是分词索引,本系统基于词表的分词方式,词表越完善,索引后的搜索效果越佳。为此,系统会定期的收录用户提交的检索词,将其合并到词表之中不断的完善词表。

3.3 数据库管理

对我馆现有的数据库在资源发现系统中进行创建、修改、删除、克隆;对加入系统的数据库进行预处理、启动索引、清空数据库等配置;对数据库中的记录进行普通浏览、检索浏览、分类浏览等操作。

3.4 数据采集与虚拟库建设

数据采集模块采用网页分析与提取技术,经过设置采集网页、时间和关键词等需求后,就能有效实现对选定网页内相关内容的定期监视和自动采集,采集结果统一进入仓储数据库。对入库数据可以即时发布,也可利用数据采编工具进行编辑后再发布。

同样,在实体数据库中通过关键词检索与分类检索、聚合检索等方式的结合,可以迅速从仓储数据库中抽取所需数据,组成虚拟数据库并发布到图书馆的网页上。,可以轻松的建立各类专题数据库。

3.5 Web发布

本系统使用了交叉索引和末端聚类技术,实现了检索结果的分类分布、检索点分布、聚类点分布。采用类似搜索引擎的展现方式,读者输入搜索词检索后,可以直观的了解搜索结果的分布情况,用户点击感兴趣的数据库后,要展示检索结果在各分类项以及各检索点(题目、作者、关键词、摘要、正文等)中的命中数,用户进一步点击分类项或检索点后可展示搜索结果的特征划分,用户可选择所需的特征继续缩小检索范围。

3.6 访问监控与信息推送

内置的访问监控系统,可以精确完整的记录用户的所有访问,并给出常用的统计分析,以帮助图书馆更好的发掘读者的潜在信息需求,针对特定读者需求进行资源、推荐。如通过RSS、E-mail、收藏推荐等将资源推送至读者的网络环境中。

本系统目前实测的数据量为一亿两千万条文献元数据,数据及索引存储容量为12TB,100用户并发搜索测试,平均90%以上的搜索响应时间小于0.5秒,为我院读者利用图书馆电子资源提供了有力工具,受到读者的普遍欢迎。

4.结语

本馆的资源发现系统虽然取得了较大成功,但仍存在一些问题,主要是为读者提供评论、评价等交流平台以及英文检索分词技术还有待改善。另外,任何一种系统的查全率都是相对的,如果用户过分相信通过一个资源发现系统即可获得全部的数据,对科研和教学是不利的,这也是我们在推荐读者应用资源发现系统时应注意的问题。资源发现的最根本原因终究是回归到图书馆五定律,让图书馆善用现代信息科技,节省读者检索数据的时间,让读者找到真正想要的信息,并让每篇文章也有其管道可被善加利用。资源发现服务只是开始,终极目标是图书资源能被充分的、有效的使用。

蓝狮案例展示-图书馆资源发现系统应用研究