Spark与Hadoop的比较

Spark是在借鉴了MapReduce之上发展而来的,继承了其分布式并行计算的优点并改进了MapReduce明显的缺陷,具体如下: 首先,Spark把中间数据放到内存中,迭代运算效率高。MapRedu...
阅读全文
数据清洗的基本原理 大数据

数据清洗的基本原理

数据清洗是发现并纠正数据文件中可识别的错误的最后一道程序,包括对数据一致性的检查、无效值和缺失值的处理。 数据清洗的原理是利用有关技术如数据挖掘或预定义的清理规则将脏数据转化为满足数据质量要求的数据(...
阅读全文

数据采集有哪些常用方法

(1)系统日志采集方法 很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如Hadoop的Flume、Kafka的Sqoop等,这些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和...
阅读全文
什么是层次数据的可视化 数据可视化

什么是层次数据的可视化

层次数据是常见的数据类型,可以用来描述生物属种、组织结构、家庭族谱、社会网络等具有等级或层级关系的对象。层次数据的可视化方法主要包括节点连接图和树图两种方式。 (1)节点连接图(见图 2-11)。 节...
阅读全文
什么是Andrews 曲线法 数据可视化

什么是Andrews 曲线法

什么是Andrews 曲线法 Andrews 曲线法。Andrews 曲线法使用二维坐标系展示可视化结果,将多维数据的每一数据项通过一个周期函数映射到二维坐标系中的一条曲线上,通过对曲线的观察,用户能...
阅读全文