大数据基础知识
大数据概述
大数据(big data),指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要采用新处理模式才能获取很多智能的、深入的、有价值的信息,以期得到更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资源。(GB:超大规模,TB:海量、PB:大数据)
大数据的特点在于对海量数据进行分布式数据挖掘,依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。
大数据具有 5V 特点,即:
- Volume 大量:数据的大小决定所考虑的数据的价值的和潜在的信息;
- Velocity 高速:指获得数据的速度;
- Variety 多样:数据类型的多样性;
- Value 价值:应用价值高;
- Veracity 真实性:数据的质量高。
大数据处理系统需经过 5 个环节:① 数据准备;② 存储管理;③ 计算处理;④ 数据分析;⑤ 知识展 示。
数据源 -> 数据导入 -> 数据存储 -> 计算处理 -> 数据分析 -> 知识展现
大数据关键技术
- HDFS:能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。
- HBase:不同于一般的关系数据库,是非结构 化数据存储的数据库。
- MapReduce:一种编程模型,主要思想是 Map(映射)- Reduce(归约)。
- Chukwa:用于监控大型分布式系统的数据收集系统。