分类模型的性能比较:如何绘制ROC曲线? 数据挖掘

分类模型的性能比较:如何绘制ROC曲线?

比较不同分类模型性能好坏时,最常用的一种方法是接受者操作特征(Receiver Operating Characteristic, ROC)曲线。ROC曲线是显示分类器真正率和假正率之间折中的一种图形...
阅读全文

分类模型的评估:几种划分原始数据集的方法

分类模型不仅要能够很好地拟合训练数据集,还希望能够很好地预测未知的类标号,于是在评估分类模型的时候,测试模型在检验集上的性能就变得十分有必要了。为了做到这一点,检验记录的类标号必须是已知的。因此,原始...
阅读全文
数据挖掘中的分类是什么意思? 数据挖掘

数据挖掘中的分类是什么意思?

分类在数据挖掘中是一项非常重要的任务,目前在商业上应用最多。分类任务的输入数据是记录的集合。每条记录用元组( X , y )表示,其中 X 是属性的集合, y 是一个特殊的属性,是分类的目标属性,称为...
阅读全文
数据挖掘技术的发展历史 数据挖掘

数据挖掘技术的发展历史

数据挖掘的主要任务是从数据中提取可用的知识,其技术的根源可以追溯几个世纪之前应用数学的启蒙和发展。 大数据架构数据挖掘发展趋势如图1-2所示。 图1-2 大数据架构数据挖掘发展趋势 图1-2的左边展示...
阅读全文

R语言进行数据可视化有哪些优势?

R语言(有时简称R)是一款开源的数据分析和可视化编辑语言,常用于统计分析、图形绘制、数据挖掘、机器学习等领域。相比其他常见的统计分析与绘图软件,R语言在数据可视化方面具有诸多优势。 (1)R语言以“包...
阅读全文

什么是数据库完整性:数据完整性的分类

数据库完整性(Database Integrity)是指数据库中数据的正确性和相容性,是确保数据库中数据一致、正确以及符合企业规则的一种思想,是使无序的数据条理化,确保正确的数据被存放在正确的位置的一...
阅读全文

什么是数据清洗的评估

数据清洗的评估实质上是对清洗后的数据的质量进行评估,而数据质量的评估过程是一种通过测量和改善数据综合特征来优化数据价值的过程。数据质量评价指标和方法研究的难点在于数据质量的含义、内容、分类、分级、质量...
阅读全文

数据清洗的主要应用领域

目前,数据清洗主要应用于三个领域:数据仓库、数据挖掘和数据质量管理。 (1)数据清洗在数据仓库中的应用 在数据仓库领域,数据清洗一般是应用在几个数据库合并时或多个数据源进行集成时。例如,指代同一个实体...
阅读全文

数据仓库体系结构的4个层次

数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Varia...
阅读全文
Hive的特征:Hive的系统架构 数据仓库

Hive的特征:Hive的系统架构

Hive特征 Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hiv...
阅读全文

Spark与Hadoop的比较

Spark是在借鉴了MapReduce之上发展而来的,继承了其分布式并行计算的优点并改进了MapReduce明显的缺陷,具体如下: 首先,Spark把中间数据放到内存中,迭代运算效率高。MapRedu...
阅读全文
数据清洗的基本原理 大数据

数据清洗的基本原理

数据清洗是发现并纠正数据文件中可识别的错误的最后一道程序,包括对数据一致性的检查、无效值和缺失值的处理。 数据清洗的原理是利用有关技术如数据挖掘或预定义的清理规则将脏数据转化为满足数据质量要求的数据(...
阅读全文
数据采集工具:Flume、Kafka、Sqoop 大数据

数据采集工具:Flume、Kafka、Sqoop

(1)Flume Flume是Apache旗下的一款开源、高可靠、高扩展、容易管理、支持客户扩展的数据采集系统。Flume使用JRuby来构建,所以依赖Java运行环境。 它的工作原理有点类似于一节一...
阅读全文

数据采集有哪些常用方法

(1)系统日志采集方法 很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如Hadoop的Flume、Kafka的Sqoop等,这些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和...
阅读全文
结构化数据、半结构化数据与非结构化数据的区别 数据分析

结构化数据、半结构化数据与非结构化数据的区别

结构化数据、半结构化数据与非结构化数据的区别 从数据的结构化程度看,可分为结构化数据、半结构化数据和非结构化数据,三者之间的区别见表3.1。 表3.1 结构化数据、半结构化数据和非结构化数据对比 在小...
阅读全文
什么是层次数据的可视化 数据可视化

什么是层次数据的可视化

层次数据是常见的数据类型,可以用来描述生物属种、组织结构、家庭族谱、社会网络等具有等级或层级关系的对象。层次数据的可视化方法主要包括节点连接图和树图两种方式。 (1)节点连接图(见图 2-11)。 节...
阅读全文
什么是Andrews 曲线法 数据可视化

什么是Andrews 曲线法

什么是Andrews 曲线法 Andrews 曲线法。Andrews 曲线法使用二维坐标系展示可视化结果,将多维数据的每一数据项通过一个周期函数映射到二维坐标系中的一条曲线上,通过对曲线的观察,用户能...
阅读全文