因为现有企业IT的应用和架构是从过去垂直型组织结构发展而来,应用和数据条块分割是不可避免的,但也都或多或少地进行过一些数据集成。在我们接触的客户中,根据数据集成的成熟度,大概就两类:典型传统的垂直型应用,核心应用间几乎都存在大量的数据兀余,数据通过上报的形式以日/周/月周期集成,由于元数据不一致和数据采集分析过程的不同,不同应用的数据口径不一致现象经常发生,需要大量人工完成数据核对和清洗。显而易见,这种情况下减少数据周转周期,提供高质量的企业运营数据是很困难的,而这恰恰又是敏捷企业所需要的。
企业架构以运营数据库为基础,主要应用都维护一个运营数据库的副本,并定期和运营数据库同步。这种情况下数据周转周期和数据的质量都是比较好的,但是由于应用和数据的祸合度太高,每个应用都存在对信息访问的冗余逻辑,当某些应用,特别是运营数据库的升级时,相关的应用都需要被改造,这是对业务变化快速响应的一大障碍。为了适应敏捷企业对于数据实时性、数据质量和数据访问的灵活性的要求,这两种类型的信息架构都需要进行改造。这种改造包括信息的虚拟化,这一点第二种类型的信息架构已经有了很好的基础,但是需要加强元数据的管理,以提高信息、集成架构的灵活性;其次,开发和维护统一的对信息访问的逻辑,并将其暴露为服务。
信息架构的第一个层次是现在已经存在的各种数据源,它们包括关系数据库、数据文件、多媒体内容管理系统以及各种应用等。数据库,但是对他们的直接访问,信息架构的第二个层次是通过多种手段完成信息的虚拟化,经过虚拟化后的信息模型应该和业务架构中的企业信息模型相匹配。虚拟化的过程主要是信息的物理集中或虚拟集中,物理集中需要创建中心数据库,其数据模型和企业信息模型相匹配,然后通过ETL或EI(I企业信息集成)中间件的集中(consolidation)方式将数据复制到中心数据库,因为数据层面上的不一致性对数据进行清洗是可避免的。