大数据

非结构化数据的采集商业银行

2018-05-07 11:51:52 | 来源:中培企业IT培训网

2.非结构化数据的采集和存储

(1)非结构化数据的采集商业银行的非结构化数据主要来源于行内和行外两类途径。

其采集方法主要有以下几种:

1)行内文档信息的采集。对于行内业务系统信息的采集,商业银行一般会有统一的工具或系统从各类业务系统中获取信息。对于被采集业务系统会提供数据库、文件存储等模块的只读用户,提供统一的工具或数据采集模块来获取数据,而且采集工具或系统一般仅存储索引信息,而不存储业务系统信息实体。

2)行内系统日志的采集。很多商业银行都有自己的海量数据采集工具,多用于系统日志采集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,这些工具一般都采用分布式架构,能满足每秒数百兆字节的日志数据采集和传输需求。

标签: 非结构化数据

预约领优惠