欢迎来到论文网! 识人者智,自知者明,通过生日认识自己! 生日公历:
网站地图 | Tags标签 | RSS
论文网 论文网8200余万篇毕业论文、各种论文格式和论文范文以及9千多种期刊杂志的论文征稿及论文投稿信息,是论文写作、论文投稿和论文发表的论文参考网站,也是科研人员论文检测和发表论文的理想平台。lunwenf@yeah.net。
您当前的位置:首页 > 毕业论文 > 计算机毕业论文

异构数据源集成关键技术研究

时间:2011-04-24  作者:秩名

论文导读:当前发展比较成熟的数据集成方法从总体上可分为三种:数据仓库、联邦数据库和中间件。元数据的重要性就显得极为突出。要进行异构数据源的集成操作。
关键词:数据集成,元数据,异构数据源,模式映射
 

1 引言

随着信息技术的不断发展,基于WEB的网络化办公逐渐成为各级单位主要的工作方式。为了完成特定的任务,单位所属的每个部门都建立了相关的WEB应用系统。在网络办公系统建设的初期,由于不同部门之间的职能具有较大的区别,因此在建立网上办公系统时各部门都是基于自身的需求出发进行设计与开发,彼此之间相对独立,联系并不紧密,而且使用的数据库是在不同技术与科研条件下建立的,从而形成了语法、语义、模式等方面的异构[1]。投入使用后,这些独立的系统能够很好地完成特定应用范围内的操作,但是局限性同样十分明显。由于具体业务部门是单位整体的不同分支,相互之间业务往来十分频繁,要完成相关的业务流程就必须访问多个特定的系统,即使是简单的查询操作也是如此,给用户的使用带来了极大的不便。同时,在构建网络系统时,各部门都要使用到的一些基本信息被重复建设,随着数据的不断变化,这些信息的真实性、完整性和时效性在不同的系统中难以得到保证。以学校为例,教员的基本个人信息保存在人事部门,而教务部门保存了教员的课程相关信息,财务部门保存了教员的工资和福利信息,后勤部门保存了教员的住房信息等。如果人员信息在各个系统中重复进行建设而不是统一管理,既浪费了有限的资源,在实际使用的过程中还可能就会出现难以预料的问题。因此,需要借助某种方法或手段,对不同WEB系统中的数据进行整合,减少错误的发生,提高使用效率。

当前发展比较成熟的数据集成方法从总体上可分为三种:数据仓库、联邦数据库和中间件,它们在不同的着重点和应用上部分解决了数据共享问题,然而数据源模式的异构问题并没有从根本上得到解决。此时,元数据的重要性就显得极为突出。元数据是关于数据的数据,是对数据源所存储数据的详细描述,不仅包含了数据的名称、类型等信息,还提供了数据的来源、业务规则、取值范围等上下文描述信息。基于以上分析,就可以制定基于元数据的异构数据资源集成方案,本文讨论的内容是整个方案中的关键技术,主要对获取元数据、建立集成模式(也可称为“用户模式”)、生成集成模式与数据源元数据映射以及生成查询语句完成集成查询进行阐述。

2 数据集成流程设计

基于元数据的数据集成过程主要有三个关键点:一是用一个统一的标准将被集成的各数据源的元数据提取出来集中存放在一个元数据库中,就可以得到远程数据资源的查询渠道;二是按照用户的查询要求建立具体的集成模式,并将集成模式的字段映射到相关的元数据上,就能够对远程数据源进行定制查询,并按照集成模式的格式保存查询结果;三是对各数据源的查询结果进行连接、合并等操作,按照基于集成模式裁减的用户视图进行输出,就能够实现数据的整合。数据集成的具体流程如图1所示。

E:图片2.png

图1 数据集成查询示意图

3 关键技术研究

3.1 获取元数据

要进行异构数据源的集成操作,最根本的就是掌握被集成数据源的相关信息,也就是数据源的元数据。在引言部分中已经介绍过,元数据包含了对数据源中数据的详细描述。因此,通过抽取各数据源的元数据,可以对要集成的数据源在结构上有一个更直观的认识。与数据仓库的集成方法相比,使用元数据进行数据集成有以下特点:(1)元数据库中存储的是各数据源的结构信息,按照统一的元数据标准进行描述后集中存放在元数据库中,能够保持各数据源的结构特征。(2)建立元数据库所抽取的多个数据源的元数据与其所保存的具体数据相比存储压力要小得多,而且由于各数据源的结构相对保持稳定,结构基本不会变化或变化较小,元数据更新频率远低于数据更新频率,同时在查询时是通过元数据直接访问相关的数据源,能够保证查询结果的准确与全面。

目前,主流的数据库产品都能够根据其中保存的数据库文件生成相应的SQL脚本,帮助用户备份或建立数据库。这些SQL脚本包含了数据源的所有元数据,如模式、表、字段的名称、类型以及元数据之间的相互关系等。虽然不同数据库产品在语法上有所区别,但是相差并不大,通过分析脚本的结构就可以从中提取出所需要的元数据,并将其按照统一的格式保存在元数据库中。由于每个数据源只有部分内容参与集成,因此不需要将所有的元数据都保存到元数据库中。对SQL脚本进行适当的裁减后再进行处理,既有效地提高了元数据库的存储利用率,又可以保护数据源中不能开放的敏感内容,实现了数据安全和存储性能的平衡。博士论文。

3.2建立集成模式

由于每个数据源的应用目的和背景都各不相同,导致了语法、语义、模式等方面都存在异构,“同一概念从不同数据源中可得到完全不同的属性信息”[2]。因此,数据集成就是以拥有相同的概念、被定义为主键的元数据作为连接的依据,按照用户的查询需求将从各数据源得到的数据进行清理与整合。集成后的数据在逻辑上依然是按“表”或“视图”的形式组织的,同一列的数据可能来源于不同的数据源,整合时可能会因为数据源对字段类型定义的不同而导致集成失败。因此,在进行实际的集成过程之前,必须根据实际的查询需求建立相应的集成模式,对具有相同语义的元数据重新定义用户能够理解的名称、类型和长度等信息,每个数据源的查询结果都要以此为标准进行转换,以保证集成操作的顺利进行。通过借鉴DBMS对表的管理形式,用户在建立自己的集成模式时类似于建立了一个虚拟的表,可以定义并管理“表名”、“字段名”、“类型”和“字段长度”等相关信息,按照不同的查询需求可以同时建立多个集成模式,并且随时可以根据需要进行调整。集成模式的“字段”就是用户需要的属性信息,其类型和长度体现了用户对查询结果的要求。博士论文。这种建立虚拟表的方式相当于定义了集成模式的元数据,因此在存储上与数据源元数据的保存形式相同,都是整合方案数据库中的数据,这也为建立集成模式与数据源元数据之间的映射奠定了基础。

3.3生成集成模式与元数据之间的映射

集成模式统一了不同数据源对具有相同语义的元数据的理解,但它只定义了集成结果的结构,只有与数据源元数据产生联系才能从数据源获得实际需要的数据。因此,集成模式与数据源元数据之间的映射就成为了数据集成中不可缺少的重要步骤。映射的依据就是以集成模式为参照,由用户选择需要整合的表,将需要集成的具有相同语义的元数据关联到相关的集成模式“字段”上,这时不同的数据源就会以集成模式为纽带相互产生一定的关联,只要对集成模式及相应的映射关系进行分析就能得到各数据源的实际查询语句,实现对异构数据源的查询。需要注意的是这种映射对已确定的集成模式和数据源来说是唯一的,不能出现集成模式的同一“字段”与同一数据源表中多个字段相关联或数据源表中的同一字段与同一集成模式的多个“字段”相关联的情况。图2展示了集成模式到数据源表的映射关系。

E:图片1.png

图2 集成模式到实际数据源表的映射

3.4生成实际查询语句完成集成查询

通过分析集成模式及其对应的映射关系,就能把集成模式的查询分解为对各异构数据源的查询,再把各数据源的查询结果按照集成模式进行整合及清理后,就是最终的集成结果。博士论文。主要步骤如下:

l根据需要对集成模式进行一定的裁减,生成用户视图,并选择相应的映射关系

l对用户视图进行分析,根据用户视图的“字段”以及相应的映射关系确定每个数据源需要查询的字段,并用用户视图的“字段”作为数据源表的字段的别名;如果用户视图“字段”在数据源中没有映射关系,则数据源字段以NULL值进行代替

l根据确定的数据源字段生成各数据源的查询语句,每执行一个查询语句后都在本地数据库中建立临时表保存查询结果,准备进行集成

l对所有的临时表按照记录的数目进行排序,选择记录条目最少的两个表进行连接,生成新的临时表,完成后删除参与连接的两个表。重复上述步骤,直到只剩下最后一个临时表,即为集成查询的初步结果

l对最终的临时表进行整理,消除其中的重复项,并按用户视图的样式输出,完成最终的数据集成

4 结束语

本文主要介绍了一种异构数据源集成方案实现异构数据源集成时的主要实现方法。作为基于元数据的集成办法,它通过定义集成模式与各数据源模式的映射解决数据异构的问题,使各数据源中有关联的数据在集成后能够按照用户所理解和希望的方式进行组织,方便了用户的使用,消除了各WEB系统所存储数据中可能存在的不确定性,降低了重复建设的投入。笔者已根据该设计方案实现了一个基于WEB的数据集成查询工具“M-query”,基本实现了预期的设计目标,受篇幅的限制,主要的算法设计和具体的实现过程将在以后的文章中进行介绍。


参考文献
[1]黎建辉,佘怀化,阎保平.基于元数据的关系数据库语义集成方法.计算机工程[J],2008,34(6):54-56.
[2]杨森,夏燕,曹顺良,等.语义异构生物数据源中的数据集成与更新[J].计算机工程,2008,34(8):38-40.
 

 

查看相关论文专题
加入收藏  打印本文
上一篇论文:基于速率期望的GPRS资源配置算法研究
下一篇论文:抓住机遇,深化电信工程专业实验技术改革
毕业论文分类
行政管理毕业论文 工商管理毕业论文
护理毕业论文 会计毕业论文
会计专业毕业论文 英语专业毕业论文
大学毕业论文 硕士毕业论文
计算机毕业论文 市场营销毕业论文
物流管理毕业论文 法学毕业论文
相关计算机毕业论文
最新计算机毕业论文
读者推荐的计算机毕业论文