在当今社会各行各业都离不开大数据了,可想而知大数据的重要性。但是对我们来讲大数据这个词只是简单的一个商业用语,和商业智能一样我们无法具象的描述它,科学定义大数据其实是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,大数据的四大元素有Redis、传统数据库、HBase、Hive。现实中,我们在大数据相关行业的面试中也经常会被问到这个问题,今天我们来简单了解一下大数据的四大元素和区别。
大数据的四大元素Redis、传统数据库、HBase、Hive的区别。
1、Redis:分布式缓存以内存为基础,强调缓存,支持数据持久化、事务操作、NoSQL型键/值数据库,支持列表、集合等更丰富的类型。
2、HBase:HBase是基于HDFS的数据库系统,提供高可靠性的列存储和实时读写。它介于Nosql和关系数据库之间,只通过主键和主键的范围来检索数据,只支持单行事务。主要用于存储非结构化和半结构化的松散数据。
3、关系数据库:有mysql,Oracle,SqlServer等等。支持事务操作,属于写模式,即写数据时检查。是数据库对于具体业务的日常在线操作,通常涉及到几条记录的查询和修改。支持完善的sql函数,可以对少量数据进行统计分析。
4、Hive:Hive是基于Hadoop的数据仓库工具,可以将结构化数据文件映射到数据库表。并提供一个简单的sql函数,可以将sql转换成mr任务运行。由于sql学习成本低,没有必要开发非常适合数据仓库统计分析的mr应用程序。
大数据的四大元素区别可以分为两类:关系数据和Hive是支持SQL引擎的数据库;Redis和Hbase是NoSQL类型的Key/vale数据库,支持简单的行和列操作,但不支持SQL引擎。在SQL数据库中,关系数据库更侧重于事务操作,属于写模式,支持的数据少,索引延迟低;而Hive更侧重于查询分析操作,属于读取模式,不支持高索引延迟,支持大量数据,所以是为数据仓库设计的。K/V数据库中,Redis读写性能较高,一般几十微秒,而Hbase是几毫秒;Redis不仅支持K/V操作,还支持List、Set等更丰富的类型;Redis存储在内存中,所以数据量小,Hbase的存储远远超过内存的大小。HBase适合大数据的持久存储,Redis更适合缓存。
当然除了es和solr,还有很多类似的存储服务。需要先回答两种存储服务的概念,然后根据不同的核心功能和特点回答两者的区别。组合在项目中的运用在哪种场景下,使用哪种技术。传统数据库用于实时业务事务处理,Redis用于高性能要求的实时缓存,Hive可用于离线统计查询,HBase可用于历史数据固化和快速查询,当然也可以一起用。
综上所述,大家了解了大数据的四大元素的区别,如果您想了解更多关于大数据的的相关信息,请您继续关注中培教育。