Dataspaces(数据空间)
最近在研究时遇到了这一新概念,它的意思是将各个数据源的数据以及其关系进行描述,最终可能产生一个数据图谱(类似知识图谱的东西,只不过里面存储的是各种数据)。
下面是对维基百科的翻译:
数据空间是数据管理中的一个抽象,旨在克服数据集成系统中遇到的一些问题。 目的是减少依靠匹配和映射技术的数据集成系统的设置成本,并通过“即付即用”的方式改进系统的使用。 数据集成的劳动密集型方面被推迟,直到绝对需要它们为止。
传统上,数据集成和数据交换系统旨在提供许多所谓的数据空间系统服务。 数据空间可以被视为数据集成架构演进的下一步,但与当前的数据集成系统在以下方面有所不同。 数据集成系统需要语义集成才能提供任何服务。 因此,尽管没有一个统一的数据模型可以表示存在于多个系统中的数据,但数据集成系统需要知道每个系统的数据模型中使用的术语之间的精确关系。 因此,需要大量的前期工作才能建立一个数据集成系统。
数据空间将重点转向数据共存方法,为所有数据源提供基本功能,而先不考虑如何将它们进行集成。 例如:数据空间支持平台(DSSP)可以在其所有数据源上提供关键字搜索,类似于现有桌面搜索系统提供的功能。 当需要更复杂的操作时,例如:关系式查询、数据挖掘或对某些源的监视,则可以付出额外的努力以增量方式更紧密地集成这些数据源。 相对于传统数据库而言,数据空间系统最初只能提供较弱的一致性和持久性保证。 如果需要更强的保证,可以投入更多的精力在数据源的各个所有者之间达成协议,并开放某些接口(例如,分布式提交协议)。
数据图谱(另一个新概念)在数据空间系统中发挥着重要作用。 数据图谱致力于基于事实(由主谓宾组成的三元组或“数据实体”)的数据建模方法,该方法支持上述“即付即用”技术。 它们支持数据共存,因此是语义集成的理想技术。 搜索和关系式查询和分析可以在数据图上同时工作,这是数据空间的另一个重要属性。
这种方式是一种自底向上的数据组织模式,而传统的数据仓库是需要先自顶向下进行数据建模,再通过ETL将数据灌入数据仓库。