跳到主要内容

大数据基础知识

大数据概述

大数据(big data),指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要采用新处理模式才能获取很多智能的、深入的、有价值的信息,以期得到更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资源。(GB:超大规模,TB:海量、PB:大数据)

大数据的特点在于对海量数据进行分布式数据挖掘,依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。

大数据具有 5V 特点,即:

  • Volume 大量:数据的大小决定所考虑的数据的价值的和潜在的信息;
  • Velocity 高速:指获得数据的速度;
  • Variety 多样:数据类型的多样性;
  • Value 价值:应用价值高;
  • Veracity 真实性:数据的质量高。

大数据处理系统需经过 5 个环节:① 数据准备;② 存储管理;③ 计算处理;④ 数据分析;⑤ 知识展示。

数据源 -> 数据导入 -> 数据存储 -> 计算处理 -> 数据分析 -> 知识展现

大数据关键技术

  • HDFS:能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。
  • HBase:不同于一般的关系数据库,是非结构化数据存储的数据库。
  • MapReduce:一种编程模型,主要思想是 Map(映射)- Reduce(归约)。
  • Chukwa:用于监控大型分布式系统的数据收集系统。