为了提高统计数据质量,国际货币基金组织(International Monetary Funds,简称IMF)在1995年10月批准建立两个层次的数据标准,即数据公布通用系统(General Data...
什么是统计数据质量评价
国外特别是发达国家统计机构十分重视数据质量的评价和管理,建立数据质量评价机制和管理体系,以改进和提高统计数据质量。 总体上,数据质量管理可分为两类: 一类是数据质量综合管理体系,即在统一的组织框架下,...
统计数据质量的内涵
统计数据质量是国家统计机构的“生命”。数据质量的好坏,不仅影响决策正确性与科学性,而且还直接影响国家统计机构的形象和声誉。随着经济全球化进程的加快,信息网络技术的推广应用,社会各界对统计信息的需求越来...
举例说明大数据的复杂性与多样性
举例说明大数据的复杂性与多样性 (1)数据的复杂性 复杂数据在可以“成熟的”分析和可视化之前需要额外的准备工作。因此重要的是,通过了解数据的复杂程度及它在未来的复杂性趋向,来评估大数据/商业智能项目是...
大数据由小到大的尺寸和存储容量
大数据由小到大的尺寸和存储容量 大数据的存储结构小到以字节来表示,大到NB和DB级别。以2 10 逐级增长。下面表示的是数据由小到大的尺寸和存储容量。最小的基本单位是bit,按顺序给出所有单位:bit...
数值规约:什么意思、常用方法
数值规约:什么意思、常用方法 数值规约指通过选择替代的、较小的数据来减少数据量,包括有参数方法和无参数方法两类。 有参数方法是使用一个模型来评估数据,只需存放参数,而不需要存放实际数据,例如回归(线性...

什么是属性规约:属性规约的方法
什么是属性规约:属性规约的方法 属性规约通过属性合并来创建新属性维数,或者直接通过删除不相关的属性(维)来减少数据维数,从而提高数据挖掘的效率、降低计算成本。 属性规约的目标是寻找出最小的属性子集并确...
什么是数据规约:数据规约的意义
什么是数据规约:数据规约的意义 在大数据集上进行复杂的数据分析和挖掘需要很长的时间,数据规约产生更小但保持原数据完整性的新数据集。在规约后的数据集上进行分析和挖掘将更有效率。 数据规约的意义在于: ·...
Hadoop的优点优势
Hadoop的优点优势 Hadoop是一个能够让用户轻松构建和使用的分布式计算平台。用户可以轻松地在Hadoop上开发、运行需要处理海量数据的应用程序。它主要有以下几个优点。 (1)高可靠性。Hado...
什么是数据资源:数据资源的组成
什么是数据资源:数据资源的组成 1.定义 狭义的数据资源是指数据本身,即企业运作中积累下来的各种各样的数据记录,如客户记录、销售记录、人事记录、采购记录、财务数据和库存数据等。 广义的数据资源涉及数据...
Hadoop的特点特征
Hadoop的特点特征 Hadoop是开源的、应用最广、影响最大的大数据分布式处理框架,该软件具有以下特点。 (1)高可靠性:数据采用冗余存储方式,部分副本失效并不会影响数据的可用性。 (2)高扩展性...

Hadoop的发展历程
Hadoop的发展历程 Hadoop的发展历程如图4-16所示。 图4-16 Hadoop的发展历程 从图4-16可以看出,Google是Hadoop的滥觞,道格·卡廷(Doug Cutting)是H...

Hadoop的生态圈组件:Ambari、Oozie、ZooKeeper、Sqoop、Chukwa
Hadoop的生态圈组件:Ambari、Oozie、ZooKeeper、Sqoop、Chukwa Hadoop的发展非常神速,现在已经形成了一个很大的生态圈,而且还在不断发展过程中,如图4-15所示。...
MapReduce的工作流程
MapReduce的工作流程 MapReduce的工作流程如下所述。 (1)将一个大的运算作业拆分成许多个Map任务,并将其分配在多个服务器上并行处理。运行Map任务的服务器通常就是存储数据的服务器。...
南丁格尔玫瑰图的来历
南丁格尔玫瑰图的来历 19世纪50年代,奥斯曼帝国、英国、法国和撒丁王国与俄罗斯帝国进行了克里米亚战争。当时战地医院的卫生条件极差,各种资源极度匮乏,英军伤病员的死亡率高达42%。英国女护士弗洛伦斯·...
Redis的功能与特点
Redis的功能与特点 Redis是一个开源的、支持网络、高性能的键值数据库。Redis源于远程字典服务器(Remote Dictionary Server),使用ANSI C语言编写,并提供多种语言...
Berkeley DB的功能与特点
Berkeley DB的功能与特点 Berkeley DB是历史悠久的嵌入式数据库系统。Berkeley DB的第一个发行版出现于1991年;1992年,BSD UNIX第4.4发行版中包含了Berk...
Memcached的功能与特点
Memcached的功能与特点 Memcached(http://memcached.org/)是由LiveJournal旗下的Danga Interactive公司开发的开源高性能键-值对型内存数据...
文档数据库MongoDB的功能与特点
文档数据库MongoDB的功能与特点 MongoDB是一个基于分布式文件存储的开源数据库系统,它是介于关系型数据库和非关系型数据库之间的产品,在非关系型数据库当中功能最丰富,最像关系型数据库。它支持的...

列族数据库HBase的四维模型
列族数据库HBase的四维模型 实际上,HBase是一个列族数据库,而不是真正的列式数据库。 因为允许存放非结构化数据,所以HBase的数据类型只有简单的字符串类型,如果需要细分类型,需要用户自己处理...