预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10
亲,该文档总共12页,到这已经超出免费预览范围,如果喜欢就直接下载吧~
如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
PAGEPAGE10集成对象代理数据库的科学工作流服务框架中的数据跟踪王黎维1,彭智勇2,3,黄泽谦2,罗敏2(武汉大学国际软件学院1,软件工程国家重点实验室2,武汉大学计算机学院3,武汉430072)摘要本文提出了一个集成数据库的科学工作流服务框架,它采用对象代理模型描述一系列科学任务的执行过程,使得工作流管理操作以类似于传统数据库管理操作的方式来完成。同时,基于对象代理数据库中的双向指针机制,本文提出了一种新的数据跟踪方法,该方法能提供比注释或反向查询更高的性能,不仅节省了大量的存储空间,而且减少了额外的计算代价,一种部分物化中间数据的模式也被提出,用于提高数据跟踪的高效性,实验显示它具有较好的系统性能。关键词科学工作流;web服务;对象代理模型;数据跟踪引言该研究得到了国家自然科学基金项目(60573095)、教育部新世纪优秀人才计划项目(NCET-04-0675)、中国高科技研究发展计划(2006AA12Z210)、教育部博士点基金项目(20050486024)、教育部科学技术研究重点项目(107072)、国家重点基础研究发展计划资助(2007CB310806)资助目前,生物、医学、生态等科学领域已经面临信息爆炸,使得这些领域的科学家每天不得不使用各种专业程序处理来自实验室信息管理系统控制的科学实验,大规模计算为中心的模拟或远程传感器实时观测的科学数据,这对自动管理科学实验提出了迫切的需求。为了支持科学家进行高效的数据管理和实验分析,将工作流技术应用于科学领域的科学工作流(ScientificWorkflow,SWF)如今已成为在网络基础设施上进行大规模科学计算和协同研究的有效方法。目前在合作环境中进行跨组织的科学实验已经越来越重要。由于该环境中数据和程序资源的分布和异构,使得广泛用于工业界的Web服务技术引入到科学工作流中,用于支持来自不同平台的计算资源的整合,如[1,2]等。它将程序封装到服务中,并通过服务调用而不是程序调用组成工作流,因此能够跨越技术和组织的边界对流程进行建模。与以任务为中心的商业工作流相比,科学工作流虽然共享了商业工作流的一些特性,但其主要是以数据为中心[3],常常涉及大规模科学计算,具有描述科学数据的元数据或者注释。因此,科学工作流实际上是数据管理和流程管理的结合[4]。探索数据库技术用于科学工作流管理已成为当前的研究热点。通常,工作流管理系统(WFMS)使用数据库管理系统(DBMS)来存储任务描述以及工作流数据,并在DBMS之上实现各个工作流功能模块。然而目前一些研究证明[5,6],大多数WFMS的功能可由DBMS提供,许多成熟的数据库技术,如计划、查询、数据跟踪以及并发控制等均可用于工作流管理系统中。采取DBMS的方式实现科学工作流管理,可以减少实现开销,增加优化的可能性,使其以一种类似于传统数据库操作的方式进行工作流管理。因此,采用以数据库系统为核心的科学工作流管理体系架构,变得非常有意义。科学工作流最重要的功能是作为识别实验数据的一种方式,称其为数据跟踪(DataProvenance)[7,8],它用于提供数据的派生历史,解释数据的由来,这对于实验分析,错误诊断以及核实实验结果的有效性很有帮助。另外,当产生实验数据的实验步骤发生改变时,能通过数据的派生历史跟踪实验进程,确定需要重做哪些步骤以便更新实验结果。因此,数据跟踪主要包含两个重要信息:用于产生实验数据的数据源,以及所经历的实验步骤。目前,数据跟踪的重要性已经被多个科学工作流项目所认可,如GridDB[6],Chimera[9],myGRID[10],CMCS[11]。注释和反向是目前两种主要的数据跟踪方法。注释将一个数据的派生历史搜集起来作为元数据,与数据一起存放在数据库中,用于解释数据的来源。反向方法主要应用逆向查询或者逆向函数,由结果数据溯源到其源数据。但两者都有不足之处,注释不能为细粒度的实验数据提供良好的存储规模,因为记录完整的派生历史可能超过数据本身所需要的存储空间。反向方法从存储的角度来看似乎更好,因为逆向函数或逆向查询能标识某一类数据的派生信息,但每次需要查询数据源时,它需要产生一个逆向函数或逆向查询去计算派生信息,在数据量大的情况下,执行效率较低。本文,我们首先提出了一个集成对象代理数据库的科学工作流服务框架,并在此框架下着重研究基于对象代理模型的数据跟踪方法,该方法能借助实验数据间的双向指针实现数据跟踪,能提供比注释或反向方法更高的性能,不仅节省了大量的存储空间,而且减少了额外的计算代价。本文的组织如下:第2节介绍了一个集成对象代理数据库的科学工作流服务框架。第3节提出了基于对象代理模型的数据跟踪方法。第4节给出了实验结果和分析。第5节分析并比较了一些相关工作。