Spark与Hadoop的比较

Spark是在借鉴了MapReduce之上发展而来的,继承了其分布式并行计算的优点并改进了MapReduce明显的缺陷,具体如下: 首先,Spark把中间数据放到内存中,迭代运算效率高。MapRedu...
阅读全文
数据清洗的基本原理 大数据

数据清洗的基本原理

数据清洗是发现并纠正数据文件中可识别的错误的最后一道程序,包括对数据一致性的检查、无效值和缺失值的处理。 数据清洗的原理是利用有关技术如数据挖掘或预定义的清理规则将脏数据转化为满足数据质量要求的数据(...
阅读全文

数据采集有哪些常用方法

(1)系统日志采集方法 很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如Hadoop的Flume、Kafka的Sqoop等,这些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和...
阅读全文
GeoGebra软件的数值类对象 大数据

GeoGebra软件的数值类对象

GeoGebra的数值类对象有数字、角度、布尔值,它们都可以看作是用一个单纯的数表示的。 1 数字 数字是GeoGebra中最基本的对象类型,包括整数、有理数、实数(GeoGebra不能直接表示复数,...
阅读全文
GeoGebra软件的几何类对象 大数据

GeoGebra软件的几何类对象

GeoGebra中的几何类对象是指欧式空间中的几何图形,其涵盖了平面几何和立体几何中的常见对象。几何类对象的操作是GeoGebra中最常用的功能。GeoGebra的工具栏提供了数量众多的几何工具图标,...
阅读全文
数据管理系统的发展历史 大数据

数据管理系统的发展历史

数据管理系统是人们用来组织、存储和检索数据的技术。人们管理和存储数据最早是使用“打孔卡”的方式来实现的。图1-1展示了在IBM 402上使用的穿孔卡片,其历史可以追溯到100多年以前。1890年,赫尔...
阅读全文

主数据管理(MDM)的具体内容

主数据管理主要包括数据建模、数据整合、数据发布和数据监控四个方面。 数据建模 数据建模阶段主要是完成以下几项工作。 ·创建结构:根据对主数据的设计,在系统中建立主数据的相关结构,包括主数据分类、主数据...
阅读全文
什么是数据的投资收益度及公益度 大数据

什么是数据的投资收益度及公益度

如果投资收益好,企业积极性就高,如果公益性好,政府扶持力度就大,二者如能结合则最佳。数据创新是逐利性和公益性并存的,其逐利性不仅表现在经济利益上,也表现在社会认可上。没有好处和回报,谁都不会求变。 公...
阅读全文

什么是数据的基础约束度

基础约束是指体制、机制、政策、资本等约束,常常是能否实施的关键。 数据兼具主动流动性和被动流动性。主动流动性,比如基因数据的传承,是不以个人的意愿改变而改变的。被动流动性是指外界的强力干扰,比如各个行...
阅读全文

什么是数据的价值密度

产业链上单位时间内创造的产值往往决定能否承受信息数据化初期的成本和风险,产值越大,密度就越高,数据创新所承担的风险度也就越高,成功的可能性就相对较大。这就是价值密度。 例如,金融证券等行业,在很短的时...
阅读全文

什么是数据生产要素理论

在大数据时代,数据的实质正在发生根本性的改变,数据已经从记录过程的依据发展成为生产要素。原有的生产要素大致分为:能源、矿产、土地及其他自然资源,劳动力,资本(诸如货币或货币等价物等)三大类。在过去某一...
阅读全文

什么是统计数据质量评价

国外特别是发达国家统计机构十分重视数据质量的评价和管理,建立数据质量评价机制和管理体系,以改进和提高统计数据质量。 总体上,数据质量管理可分为两类: 一类是数据质量综合管理体系,即在统一的组织框架下,...
阅读全文

统计数据质量的内涵

统计数据质量是国家统计机构的“生命”。数据质量的好坏,不仅影响决策正确性与科学性,而且还直接影响国家统计机构的形象和声誉。随着经济全球化进程的加快,信息网络技术的推广应用,社会各界对统计信息的需求越来...
阅读全文