5.4 非结构化数据的元数据管理
由于非结构化数据的类型和表现形式多样,其元数据管理办法很难统一,并且非结构化数据的内容不确定、不易获取(如影音、视频),因此其元数据的提取和管理在业界还是一个新领域。在此,仅就几类非结构化数据进行元数据管理方法的初步探讨。
1)对于影音、视频、图片等形式的非结构化数据,其内容一般较难获取,因此根据前面介绍的四面体模型来管理这类非结构化数据的元数据。数据生成或获取时明确其语义特征、基本属性、底层特征三方面属性,可以将其抽离出来作为结构化数据存储,那么就可以按照结构化数据的元数据管理方法进行管理。
2)对于网页、文档等,不仅可以获取语义特征、基本属性、底层特征等属性作为元数据,还可以从其中对其内容进行读取解析,抽取出关键字,作为非结构化数据的标签。主要分为三种类别:
第一种是提取文章里的关键词,作为主题词标签元数据。
第二种是对文章进行多个维度的分类,打上分类标签,如在舆情分析过程中,会打上文章所涉及的银行、产品及业务、风险点、正负面情感等。
第三种是文章本身的结构化标签元数据,如时间、作者、来源、大小等。
在实现过程中,只有通过分词、文本去重、各类分析模型(如主题分析模型、分类模型、情感分析模型)处理,并辅以各种自动化训练手段,才能获取网页、文档等各类文本的非结构化数据的标签元数据。
3)对于具有加密方式的非结构化数据,要获取其内容,一般需要比较高级的权限,因此在对其进行管理时只能获取基本的语义特征、基本属性,即可以知道文档的名称、时间等,而对于其内容则无法获知,一般和影音、视频、图片的相关元数据管理方法类似。