大数据可视化技术可以说是大数据分析和应用的一个非常关键的技术,中培教育《大数据分析与可视化技术》谢老师在这里向大家分享了在大数据可视化分析方面的经典案例。
下图是美国执行的临床药物试验收集到的结果资料视觉化成图表。药物试验通常非常复杂且牵涉了在长时间累积的资料。
试验通常涉入不止一人,病人会被分成许多队伍。每一队会有不同的特性,比如特别的用药顺序。结果会有大量的资料包含不同的试验药物以及观察到的结果。我们将资料视觉化来寻找试验药物及负面副作用之间的关连性。
图表上的四个星星呈现出同一个药物试验资料利用不同视觉化方式所得的结果。每五个形成星星的点都表示一种药物或药物变种在试验中施用在队伍中每个病人。在中间的点代表病人体验到的一种不希望有的副作用。不同药物及副作用间的连结用线条来表示。
我们现在可以轻易的观察到在星星外围的每一种药物与在中间的副作用之间的连结。这里也呈现四种不同的视觉化变形。每一个在不同物件的过滤器都标记了一个特别的发现。举例来说,某种负面副作用及一种药物之间的连结或在五种药物试验及副作用之间使用颜色来强调连结的强度。
分析方法
这份资料较复杂且在使用图表工具软体之前涉入需多处理步骤。首先,利用网站clinicaltrials.gov 的工具下载其上的报告。下载的档案格式为XML,在分析之前这些XML 档案需要经过Teradata Aster MapReduce 函数作前处理。根据文字探勘(Text Mining) 函数从报告中撷取关于特别药物的副作用名字,使得点跟线的资讯可以在关联式表格中建立。从表格中储存的资讯就可以画出图表以及计算出不同的量测资讯。在处理资料遇到的挑战有异常值(outlier) 及遗漏值(missing value)
有这四种呈现方式使得我们可以在资料中看到不同的重要的模式。线的颜色跟药物及副作用之间的连结强度有关。这些资料发布在公开网域并且可以从clinicaltrial.gov FDA.gov 取得。
大数据可视化技术在大数据时代发挥着不可替代的重要作用,有着非常广阔的市场前景。中培教育作为国内IT培训领导品牌,下一期的《大数据分析及可视化技术应用实战》培训将于9月22日—25日在 上海 举行,欢迎广大行业人才积极报名参加!