1. 模糊聚类的含义 将模糊集概念用到聚类分析中便产生了模糊聚类分析,它根据研究对象本身的属性来构造模糊矩阵,在此基础上根据一定的隶属度来确定其分类关系。利用模糊集理论来处理分类问题,它对经济领域中具...
如何处理聚类中的数据噪声和异常值
K-Means算法对噪声和异常值非常敏感,这些个别数据对于平均值的影响非常大,相对而言,K-中心点的方法不像K-Means算法,它不是求样本的平均值,而是用类中最接近于中心点的对象来代表类,因此K-中...
凝聚层次聚类与分裂层次聚类的区别
凝聚层次聚类与分裂层次聚类的区别 在给定n个对象的数据集后,可用层次方法(Hierarchical Methods)对数据集进行层次分解,直到满足某种收敛条件为止。按照层次分解的形式不同,层次方法又可...
统计分析与数据挖掘的主要区别
统计分析与数据挖掘有什么区别呢?从实践应用和商业实战的角度来看,这个问题并没有很大的意义,正如“不管白猫还是黑猫,抓住老鼠才是好猫”一样,在企业的商业实战中,数据分析师分析问题、解决问题时,首先考虑的...
数据挖掘的发展历史
数据挖掘的发展历史 数据挖掘起始于20世纪下半叶,是在当时多个学科发展的基础上发展起来的。随着数据库技术的发展应用,数据的积累不断膨胀,导致简单的查询和统计已经无法满足企业的商业需求,急需一些革命性的...
数据化运营的主要内容
数据化运营,首先是要有企业全员参与意识,要达成这种全员的数据参与意识比单纯地执行数据挖掘技术显然是要困难得多,也重要得多的。只有在达成企业全员的自觉参与意识后,才可能将其转化为企业全体员工的自觉行动,...
机器学习、人工智能与数据挖掘的关系
机器学习是人工智能的一个分支,作为人工智能的核心技术和实现手段,通过机器学习的方法解决人工智能面对的问题。机器学习是通过一些让计算机可以自动“学习”的算法,从数据中分析获得规律,然后利用规律对新样本进...
网站反爬虫的目的与手段
网站所有者从所有网站来访者中识别出爬虫并对其做出相应处理(通常为封禁IP)的过程,被称为反爬虫。对于网站所有者而言,爬虫并不是一个受欢迎的客人。爬虫会消耗大量的服务器资源,影响服务器的稳定性,增加运营...
CHAID、CART和ID3决策树算法的区别
目前,最常用的3种决策树算法分别是CHAID、CART和ID3(包括后来的C4.5,乃至C5.0)。 CHAID(Chi-square Automatic Interaction Detector)算...
离群数据与统计学异常值的区别
离群数据与统计学异常值的区别 离群数据(Outlier)就是明显偏离其他数据,不满足数据的一般模式或行为,与存在的其他数据不一致的数据。 离群数据与统计学中的异常值稍有不同: 统计学中的异常值往往指的...

聚类分析算法评价:F值评价法
聚类分析算法评价:F值评价法 聚类分析仅根据样本数据本身将样本分组。其目标是实现组内的对象相互之间是相似的(相关的),而不同组中的对象是不同的(不相关的)。组内的相似性越大,组间差别越大,聚类效果就越...

聚类分析算法评价:RI评价法
聚类分析算法评价:RI评价法 聚类分析仅根据样本数据本身将样本分组。其目标是实现组内的对象相互之间是相似的(相关的),而不同组中的对象是不同的(不相关的)。组内的相似性越大,组间差别越大,聚类效果就越...

聚类分析算法评价:purity评价法
聚类分析算法评价:purity评价法 聚类分析仅根据样本数据本身将样本分组。其目标是实现组内的对象相互之间是相似的(相关的),而不同组中的对象是不同的(不相关的)。组内的相似性越大,组间差别越大,聚类...
Apriori算法实现的两个过程:连接步与剪枝步
Apriori算法实现的两个过程:连接步与剪枝步 1)找出所有的频繁项集(支持度必须大于等于给定的最小支持度阈值),在这个过程中连接步和剪枝步互相融合,最终得到最大频繁项集L k 。 连接步: 连接步...
Ariori算法的主要思想与算法性质
Ariori算法的主要思想与算法性质 Apriori算法的主要思想是找出存在于事务数据集中的最大的频繁项集,在利用得到的最大频繁项集与预先设定的最小置信度阈值生成强关联规则。 Apriori的性质 频...

什么是频繁项集:项集支持度计数如何计算
什么是频繁项集:项集支持度计数如何计算 项集 项集是项的集合。包含k个项的项集称为k项集,如集合{牛奶,麦片,糖}是一个3项集。 项集的出现频率是所有包含项集的事务计数,又称作绝对支持度或支持度计数。...
最小支持度和最小置信度:什么意思
最小支持度和最小置信度:什么意思 最小支持度是用户或专家定义的衡量支持度的一个阈值,表示项目集在统计意义上的最低重要性; 最小置信度是用户或专家定义的衡量置信度的一个阈值,表示关联规则的最低可靠性。 ...

关联规则的一般形式
关联规则的一般形式 项集A、B同时发生的概率称为关联规则的支持度(也称相对支持度)。 项集A发生,则项集B发生的概率为关联规则的置信度。
p阶差分与k步差分:什么意思
p阶差分与k步差分:什么意思 (1)p阶差分 相距一期的两个序列值之间的减法运算称为1阶差分运算。 (2)k步差分 相距k期的两个序列值之间的减法运算称为k步差分运算。
随机时序分析方法的建立模型
随机时序分析方法的建立模型 随机时序分析法的发展就是为了弥补确定性因素分解方法的不足。 根据时间序列的不同特点,随机时序分析可以建立的模型有ARIMA模型、残差自回归模型、季节模型、异方差模型等。