首页
登录
从业资格
阅读以下关于数据集成的叙述,在答题纸上回答问题 1 至问题3。 某互联网销售企
阅读以下关于数据集成的叙述,在答题纸上回答问题 1 至问题3。 某互联网销售企
题库
2022-08-02
23
问题
阅读以下关于数据集成的叙述,在答题纸上回答问题 1 至问题3。某互联网销售企业需要建立自己的电子商务平台,将所有产品信息集中在一起,为用户提供全方位的产品信息检索服务。但产品供应商大多数已经建有自己的电子商务平台,且数据独立存储,而且数据格式和数据平台有较大差异,有的供应商甚至没有采用数据库来存储商品信息。为此该企业专门成立专家组来论证其数据集成方案。李工提出采用集中式集成方式把产品供应商的数据集中在一起,采用数据仓库技术来实现与各家供应商的数据集成。而王工提出采用松耦合的联邦数据库集成方案。专家组经过激烈讨论,认为王工方案更为合理,建议采用王工提出的集成方案。【问题 1】(10 分)请结合数据仓库和联邦数据库集成方案各自的特点,简要说明专家组采用王工提出的集成方案的原因。【问题 2】(7 分)部分供应商的产品信息没有相应的数据库,而是直接嵌入在 WEB 页面中供用户浏览。数据集成时需要直接从供应商电子商务平台的网页上获取其产品信息。请简要给出此类数据集成的方法和基本步骤。【问题 3】(8 分)在方案评审会上,项目组针对李工和王工的方案展开了激烈的讨论。刘工指出两种方案在实施的过程中,都存在数据源之间的语义映射和转换问题,都会带来数据集成的不确定。请简要说明产生不确定的原因。
选项
答案
解析
【问题1】
数据仓库集成是把多种来源的数据集中在一起,建立数据仓库,所有数据都驻留在单个数据库服务器上,配置大型处理器和存储容量。数据仓库主要用于决策支持,在数据处理过程中强调分析。其特点是:
(1)集成的数据。
(2)面向主题。
(3)数据相对稳定。
(4)包含历史信息。
联邦数据库集成是把多个数据库系统联合在一起,构成"联邦数据库系统",数据库之间通过接口查询,互相通信,数据分布在不同地方的计算机或数据库服务器上,通过网络连接。其特点是:
(1)联邦数据库提供集成的数据格式,对用户提供统一的访问,屏蔽了各个数据库的复杂性和分布情况,简化了开发数据库查询和对数据统一理解的工作。这种分布式的数据集成,更加符合应用系统的实际情况。
(2)异构数据源不仅仅是数据库系统,通过中间件,可以扩展到传感器、文件和应用程序等。
【问题2】
此类数据往往是非结构化或者半结构化的,但同一个数据源往往有统一的页面模式,因此应该采用Web内容提取(挖掘/文本挖掘)的集成方法来获取对应供应商的产品信息。
其基本步骤为:
(1)分析页面,确定其页面中的数据模式。
(2)抓取页面,通过爬虫技术获取对应的网页。
(3)特征提取与处理,获取相应数据。
(4)数据清洗,根据规则进行判断,抛弃异常数据。
(5)数据转换,根据顶先定义好的语义映射关系,将数据转换为统一格式。
【问题3】
数据集成系统依靠模式映射来指明数据源中的数据和中介所用数据之间的语义关系,但映射过程中可能发生不确定性,其原因有:
(1)数据源与中介模式之间的语义映射可能是近似的。
(2)用户不熟悉模式或系统的域太宽,不能提供基于表单式的查询接口,需要使用关键字查询,但将关键字查询转换成一组候选的结构化查询时,会带来不确定性。
(3)数据常常是使用信息获取技术从非结构化数据源获取的,而这些获取技术一般只是"大致可用",所取得的数据可能是不确定的。
【解析】
本题主要考查数据集成中的数据仓库方案和联邦数据库方案的内容。
【问题1】
本问题考查数据仓库和联邦数据库集成方案的基本概念。数据仓库集成是把多种来的数据集中在一起,建立数据仓库,所有数据都驻留在单个数据库服务器上,配置大型处理器和存储容量。数据仓库主要用于决策支持,在数据处理过程中强调分析。其特点是:①集成的数据;②面向主题;③数据相对稳足;④包含历史信息。但是此种集成方法中需要将数据源的数据转换为数据仓库中的语义,而且需要定期的数据复制和数据更新。数据源往往指的是数据库系统。
联邦数据库集成是把多个数据库系统联合在一起,构成"联邦数据库系统",数据之间通过接口查询,互相通信,数据分布在不同地方的计算机或数据库服务器上,通过网络连接。其特点是:①联邦数据库提供集成的数据格式,对用户提供统一的访问,屏蔽了各个数据库的复杂性和分布情况,简化了开发数据库查询和对数据统一理解的工作。这种分布式的数据集成,更加符合应用系统的实际情况。②异构数据源不仅仅是数据库系统,通过中间件,可以扩展到传感器、文件和应用程序等。
两种方式都需要将数据源中的数据语义转换为统一数据语义,这种转换往往存在不定性。
【问题2】
本问题考查Web内容提取或Web数据挖掘的相关知识。Web信息系统中的数据往住是非结构化或者半结构化的,但同一个数据源往往有统一的页面模式,但是其数据呈现是嵌入在页面中。因此需要采用Web内容提取(挖掘/文本挖掘)的集成方法来获取对应供应商的产品信息。
其基本的步骤是:
(1)分析页面,确定其页面中的数据模式。制定数据挖掘的特征和提取规则,编写特定的页面分析和数据提取程序。
(2)抓取页面,通过爬虫技术获取对应的网页。将远端的页面下载到本地进行存储,为后续数据提取做准备。
(3)特征提取与处理,获取相应数据,依据的原则是分析页面阶段所形成的特征和提取规则。
(4)数据清洗,根据规则进行判断,抛弃异常数据。
(5)数据转换,根据预先定义好的语义映射关系,将数据转换为统一格式。
Web内容提取的算法程序本身是近似的,因此在获取数据的内容上存在不确定性。
【问题3】
本问题考查在数据集成过程存在的不确定性问题。问题1和问题2中实际己经明确了集成过程中存在不确定性。主要的原因在于数据集成系统依靠模式映射来指明数据源中的数据和中介所用数据之间的语义关系,但映射过程中可能发生不确定性。具体原因有:
(1)数据源与中介模式之间的语义映射可能是近似的。实际系统中往往很难有非常精确、完整的语义映射。
(2)用户不熟悉模式或系统的域太宽,不能提供基于表单式的查询接口,需要使用关键字查询,但将关键字查询转换成一组候选的结构化查询时,会带来不确定性。
(3)数据常常是使用信息获取技术从非结构化数据源获取的,而这些获取技术一般只是"大致可用",所取得的数据可能是不确定的。
因此,在本试题中,无论采用数据仓库或者联邦数据库集成方案,都存在数据源之间的语义映射和转换问题,都会带来数据集成的不确定。
转载请注明原文地址:https://tihaiku.com/congyezige/2397751.html
本试题收录于:
高级系统架构设计师题库软件水平考试初中高级分类
高级系统架构设计师
软件水平考试初中高级
相关试题推荐
阅读下列说明,回答问题1至问题4,将解答填入答题纸的对应栏内。 【说明】 某
某医疗器械公司作为复杂医疗产品的集成商,必须保持高质量部件的及时供应。为了实现这
以下关于程序设计语言的叙述中,错误的是()A.程序设计语言的基本成分包括数据、
C程序中全局变量的存储空间在()分配A.代码区 B.静态数据区 C.栈区
CISC是()的简称。A.复杂指令系统计算机 B.超大规模集成电路 C.精
欲使一个后端数据模型能够被多个前端用户界面连接,采用()模式最适合A.装饰器(
以下关于指令流水线性能度量的叙述中,错误的是A.最大吞吐率取决于流水线中最慢一段
面向对象分析的目的是为了获得对应用问题的理解,其主要活动不包括()。A.认定
某开发小组欲为一公司开发一个产品控制软件,监控产品的生产和销售过程,从购买各种材
以下关于模块化设计的叙述中,错误的是()。A.尽量考虑高内聚、低耦合,保持模
随机试题
[audioFiles]2018m4s/audio_ezfj_201804_133[/audioFiles]O
Excessivesugarhasastrongmal-effectonthefunctioningofactive【C1】o___
TheArtofFriendshipA)OneeveningafewyearsagoIfo
Dependingonwhichplayeryouask,the"Fevernova"ballthatsportsequipmen
有关妇女保健工作的意义,正确的描述是A.重点保护妇女、儿童的健康 B.有利于中
共用题干 HowtheBodyKeepstheSameTemper
江泽民在十五大报告中曾说过鸦片战争后,中国成为半殖民地半封建国家。中华民族面对着
中国人民银行有权对金融机构以及其他单位和个人的下列哪些行为进行检查监督( )A
期货公司风险监管指标包括()。A:期货公司净资本 B:净资本与净资产的比
瑞文测验的分型主要包括()。 (A)儿童型(B)彩色型(C)标准型(D)高级
最新回复
(
0
)