什么是冗余数据:冗余数据的处理方法

什么是冗余数据:冗余数据的处理方法 冗余数据既包括重复的数据,也包括对分析处理的问题无关的数据,通常采用过滤数据的方法来处理冗余数据。对于重复的数据采用重复过滤的方法,对于无关的数据则采用条件过滤的方...
阅读全文

什么是噪声数据:噪声数据的处理方法

什么是噪声数据:噪声数据的处理方法 噪声数据是指在测量一个变量时测量值可能出现的相对于真实值的偏差或错误,这种数据会影响后续分析操作的正确性与效果。噪声数据主要包括错误数据、假数据和异常数据。异常数据...
阅读全文

什么是残缺数据:残缺数据的处理方法

什么是残缺数据:残缺数据的处理方法 残缺数据,顾名思义,就是指不完整的数据,如前文所提,残缺数据的情况可能是整个数据的缺失,也可能是数据中某个字段信息的缺失。可根据前文提到的数据质量评估标准中的“完整...
阅读全文

数据质量的影响因素

数据质量的影响因素 原始数据的数据质量不一,那么究竟有哪些因素会影响数据的质量呢? ● 信息因素:元数据对数据的描述及理解错误、数据源规格不统一等。 ● 技术因素:指由于具体技术处理的异常造成的数据质...
阅读全文

数据质量的评估标准:完整性、一致性、准确性、及时性

数据质量的评估标准:完整性、一致性、准确性、及时性 数据质量是保证数据应用的基础,采集来的原始数据可能存在质量问题,需要通过一定的标准来对数据进行评估。对于未通过评估的数据,将采取一系列的后续方法进行...
阅读全文

数据采集的方法:系统日志与数据库采集

数据采集的方法:系统日志与数据库采集 通过RFID射频、传感器、社交网络、移动互联网等方式可以获得各种类型的数据,包括结构化、半结构化及非结构化的数据。由于这些数据具有数据量大、异构等特点,因此,必须...
阅读全文
K-Means算法:算法原理、流程步骤 数据挖掘

K-Means算法:算法原理、流程步骤

K-Means算法:算法原理、流程步骤 K-Means算法是一个经典的聚类算法,它接受输入参数k,然后将n个数据对象划分为k个聚类,使所获得的聚类满足以下两个条件。 1)同一聚类中的对象之间的相似度较...
阅读全文
数据挖掘的过程与流程 数据挖掘

数据挖掘的过程与流程

数据挖掘的过程与流程 数据挖掘(Data Mining)是数据库知识发现(Knowledge Discovery From Database,KDD)中的一个重要步骤。数据挖掘一般是指从大量的数据中通...
阅读全文

数据挖掘的分类

数据挖掘的分类 数据挖掘涉及多个学科方向,主要包括数据库、统计学和机器学习等。 数据库技术经过20世纪80年代的大发展,除关系数据库外,又陆续出现了面向对象数据库、多媒体数据库、分布式数据库及Web数...
阅读全文

什么是异常分析:异常分析的方法与例子

什么是异常分析:异常分析的方法与例子 在海量数据中,有少量数据与通常数据的行为特征不一样,在数据的某些属性方面有很大的差异。它们是数据集中的异常子集,或称为离群点。通常,它们被认为是噪声,常规的数据处...
阅读全文

关联分析: 什么意思、例子案例

关联分析: 什么意思、例子案例 当数据集中的属性取值之间存在某种规律时,则表明数据属性间存在某种关联。数据关联是数据集中一类重要的可被发现的知识,反映了事件之间依赖或相关性的知识。 最为典型的关联规则...
阅读全文

什么是聚类分析:聚类分析的例子与方法

什么是聚类分析:聚类分析的例子与方法 聚类是指将数据集聚集成几个簇(聚类),使得同一个聚类中的数据集之间最大程度地相似,而不同聚类中的数据集最大程度地不同,利用分布规律从数据集中发现有用的规律。 例如...
阅读全文

数据处理要遵循的两个原则

数据处理中遇到的问题有许多解决办法,但大多数办法都是治标不治本的,而且需要耗费大量时间、人力与物力。要想从根本上解决数据处理过程中的问题,还需要做好数据处理的规范化工作。简单来讲,数据处理就是要约束输...
阅读全文

脏数据的处理方法:例子案例

脏数据的处理方法:举例说明 罗明在给某个客户制作一张数据单,数据单里面涉及两项内容(海运和陆运),文员A记录海运的信息、文员B记录陆运的信息。但是某一天,两人在同一时间段打开了同一张数据单,然后分别录...
阅读全文

什么是脏数据:脏数据的种类、类型

什么是脏数据:脏数据的种类、类型 什么是“脏”数据?通俗来说,它是因数据重复录入、共同处理等不规范操作而产生的混乱、无效数据。这些数据不能为企业带来价值,反而会占据存储空间,浪费企业的资源。因此,这些...
阅读全文

收集数据有什么技巧

1 充分理解收集数据的目的 在刚刚开始从事数据分析工作的时候,我常常需要对企业产品的某个功能或某个细节,例如洗衣液的舒适感、休闲上衣的肩宽尺寸等进行专业分析。 每当我完成了这些分析向老板报告时,老板就...
阅读全文

收集数据要遵循的三个原则

收集数据要遵循的三个原则 1 数据必须真实 《纸牌屋》根据同名小说与英国同名迷你剧改编而成,它的成功其实离不开Netflix精确真实的数据收集。 2012年对于美国网络视频市场来说具有里程碑的意义。这...
阅读全文

收集数据常见的三个问题

我们在收集数据时,最常见的三个问题就是不知从何处下手、收集的数据无用、收集的数据不全面。这三个误区往往会导致收集的数据不准确,从而影响后续的数据分析环节。  不知从何处下手 上司安排刚入职没多长时间的...
阅读全文

什么是仓储数据:仓储数据的意义与价值

什么是仓储数据:仓储数据的意义与价值 仓储数据实际上指的是在库存管理过程中出现的各类数据,例如库存数量、库存材料种类、库存金额等。通过对库存的分析,实现库存的合理配置,能够在保证正常材料供应的同时,减...
阅读全文

人力资源数据分析的关键要素

人力资源数据分析的关键要素 人力资源作为企业发展的基石,一直被广泛关注,而想要对人力资源数据有一个充分的了解,首先需要对人力资源数据的关键要素、类型进行分析。 说到人力资源数据在数据分析中的作用,最关...
阅读全文