数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Varia...

Hive的特征:Hive的系统架构
Hive特征 Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hiv...
Spark与Hadoop的比较
Spark是在借鉴了MapReduce之上发展而来的,继承了其分布式并行计算的优点并改进了MapReduce明显的缺陷,具体如下: 首先,Spark把中间数据放到内存中,迭代运算效率高。MapRedu...

什么是数据可视化三要素(设计、信息、沟通)
什么是数据可视化三要素(设计、信息、沟通) 图1-1给出了数据可视化三要素(设计、信息、沟通)示意图。 图1-1 数据可视化三要素示意图

数据清洗的基本原理
数据清洗是发现并纠正数据文件中可识别的错误的最后一道程序,包括对数据一致性的检查、无效值和缺失值的处理。 数据清洗的原理是利用有关技术如数据挖掘或预定义的清理规则将脏数据转化为满足数据质量要求的数据(...

数据采集工具:Flume、Kafka、Sqoop
(1)Flume Flume是Apache旗下的一款开源、高可靠、高扩展、容易管理、支持客户扩展的数据采集系统。Flume使用JRuby来构建,所以依赖Java运行环境。 它的工作原理有点类似于一节一...
数据采集有哪些常用方法
(1)系统日志采集方法 很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如Hadoop的Flume、Kafka的Sqoop等,这些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和...

结构化数据、半结构化数据与非结构化数据的区别
结构化数据、半结构化数据与非结构化数据的区别 从数据的结构化程度看,可分为结构化数据、半结构化数据和非结构化数据,三者之间的区别见表3.1。 表3.1 结构化数据、半结构化数据和非结构化数据对比 在小...

什么是层次数据的可视化
层次数据是常见的数据类型,可以用来描述生物属种、组织结构、家庭族谱、社会网络等具有等级或层级关系的对象。层次数据的可视化方法主要包括节点连接图和树图两种方式。 (1)节点连接图(见图 2-11)。 节...

什么是Andrews 曲线法
什么是Andrews 曲线法 Andrews 曲线法。Andrews 曲线法使用二维坐标系展示可视化结果,将多维数据的每一数据项通过一个周期函数映射到二维坐标系中的一条曲线上,通过对曲线的观察,用户能...