4.5 非结构化数据模型
大多数的信息是非结构化的,包括纸质的文件、报告、视频和音频文件、照片、传真件、信件等。在信息化银行建设过程中,所处理的数据除了常见的结构化数据外,还有大量的非结构化数据。
非结构化数据包含复杂的内容,并具有不同的结构特点,传统关系数据库无论从描述能力上还是从管理数据的规模上,都无法应对非结构化数据管理的要求。因此,需要专门针对非结构化数据特点,研究建立一种新的管理技术。
数据模型是数据管理的核心。数据模型定义了数据描述结构、数据操作方法以及数据完整性约束条件。基于数据模型,可以建立可扩展的数据存储模型,使数据能够以某种结构和方式进行存储与读取;可以建立面向上层应用的灵活多样的数据操作模型,支持用户对数据的高效访问。非结构化数据管理与传统结构化数据管理的目标是相同的,即支持数据的永久保存、快速有效的数据读取操作,从而有效地支持上层应用和用户的数据处理逻辑。因此,在非结构化数据管理中,建立有效的数据模型,仍然是达到数据管理目标的核心和关键。现有的非结构化数据模型主要有关系模型、扩展关系模型、面向对象模型、E-R模型以及分层式数据模型等。这些模型存在扩展性与复杂性方面的问题,而在面向大数据时这些问题更加突出,因此无法胜任大数据的管理。
非结构化数据例如文本、图形、图像、音频和视频等,从内容上没有统一的结构,数据是以原生态形式保存的,因此计算机无法直接理解和处理。为了对不同类型的非结构化数据进行处理,所采用的基本思路是对这些非结构化数据进行描述,基于描述性信息实现对非结构化数据内容的管理和操作。对于非结构化数据的描述,目前有三类:基于关键字的语义描述;基于底层特征的描述;基于概念的语义描述。因此,一个非结构化数据可以由基本属性、语义特征、底层特征以及原始数据四个部分构成,而且四个部分的数据之间存在各种联系。
基于上述对非结构化数据的分析,可以使用学术界提出的四面体模型。四面体模型由一个顶点,四个刻面和刻面之间的交线组成,如图4-12所示。