什么是列式数据库HBase:行式存储与列式存储的区别

什么是列式数据库HBase:行式存储与列式存储的区别 列式数据库中的数据是按列存储的,而传统的关系数据库是按行存储的。这一区别与中国古代书写规则是从上到下从右到左按列顺序书写,而现代书写规则是从左到右...
阅读全文

Google数据库BigTable的功能与特点

Google数据库BigTable的功能与特点 据说早在2005年,Google公司的很多项目数据都存放在BigTable中,如搜索、地图、社交网站Orkut、视频共享网站YouTube和博客网站Bl...
阅读全文

Hadoop分布式文件系统(HDFS)的缺陷与弱点

Hadoop分布式文件系统(HDFS)的缺陷与弱点 尽管HDFS已经有十分广泛的应用市场,但受限于其最初的设计理念,也由于它毕竟只是一个文件系统,不可避免地存在一些不足之处。 (1)不适合实时性很强的...
阅读全文

Hadoop分布式文件系统(HDFS)的安全设计

Hadoop分布式文件系统(HDFS)的安全设计 HDFS认为硬件出错是一种常态,因此要求文件管理系统有较高的容错性。HDFS有多种硬件容错办法。下面按命名节点出错、数据节点出错和数据出错3种情况介绍...
阅读全文

Hadoop分布式文件系统(HDFS)的设计原则

Hadoop分布式文件系统(HDFS)的设计原则 在HDFS设计之初,设计者非常有远见,明确地设定了如下设计原则。 (1)存储超大文件:HDFS要能够管理超大容量的文件,典型的文件容量是从GB级别到T...
阅读全文

Hadoop分布式文件系统(HDFS)的基本术语:数据块、节点、客户端和通信协议

HDFS的基本术语包括数据块、命名节点、数据节点、从命名节点、命名空间、客户端和通信协议。 1. 数据块 文件系统管理数据的最小单位不是字节,而是数据块。在大数据环境下,管理的文件体量大幅度增加,数据...
阅读全文
Apache Flume的特点与工作原理 大数据

Apache Flume的特点与工作原理

Apache Flume的特点与工作原理 Apache Flume(http://flume.apache.org/)是一个分布式的海量数据收集系统,同时具备推送和拉取两种数据收集方式,还可以支持发送...
阅读全文
什么是网络爬虫:网络爬虫的工作原理 大数据

什么是网络爬虫:网络爬虫的工作原理

什么是网络爬虫:网络爬虫的工作原理 互联网的发明催生了互联网站,世界上第一个网站http://info.cern.ch/是由英国人蒂姆·伯纳斯-李(Tim Berners-Lee)于1991年8月6日...
阅读全文

查询分析计算模式:什么意思、特点特征

查询分析计算模式:什么意思、特点特征 查询分析计算模式是为了解决对大规模数据的关联与查询分析问题而产生的。 传统的数据查询分析以结构化数据为主,因此关系型的数据库系统可以一统天下。 但是,大数据时代往...
阅读全文

图计算模式:什么意思、特点特征

图计算模式:什么意思、特点特征 图计算模式是以图论为基础,用图结构表述现实世界,基于大规模图结构的计算模式。 大数据运算中的许多应用核心是关联性计算,图计算模式能够良好地表达数据之间的这种关联性。 现...
阅读全文

流式计算模式:什么意思、特点特征

流式计算模式:什么意思、特点特征 流式计算模式是针对流数据的高实时性计算模式。在一些应用中,数据价值随时间的流逝而降低,因此最好在事件出现时便立即对其进行处理,而不是缓存起来进行批处理。 2011年,...
阅读全文

批处理计算模式:什么意思、特点特征

批处理计算模式:什么意思、特点特征 批处理计算模式是通过并行计算方式实现针对大规模数据的批量计算的,其典型产品有MapReduce、Spark等,这些产品均提供庞大且设计精良的并行计算软件框架,可以自...
阅读全文

大数据的发展历程

大数据的发展历程 至今,人类社会经历过两次“数据爆炸”。东汉元兴元年(公元105年)宦官蔡伦改进造纸术,以及北宋庆历时期(1041—1048年)民间艺人毕昇发明活字印刷术,使得图书进入了普通百姓家,从...
阅读全文

大数据产生的原因

大数据产生的原因 从字面上看,大数据就是数量巨大的数据,或者称为海量数据。实际上,大数据是一个较为抽象的概念,数量巨大只是其中的一个表面的特性。大数据是网络信息时代的客观存在,其产生的意义并不在于掌握...
阅读全文

数据存储技术的发展历程

数据存储技术的发展历程 1951年:Univac系统使用磁带和穿孔卡片作为数据存储。 1956年:IBM公司在其Model 305 RAMAC中第一次引入了磁盘驱动器。 1961年:美国通用电气公司(...
阅读全文

什么是缺失值:造成数据缺失的原因

什么是缺失值:造成数据缺失的原因 缺失值是指为空的属性值,造成数据缺失的原因有以下几种: (1)数据未输入。例如工作人员故意或不小心没有输入数据。 (2)设备故障。例如收款机故障,导致顾客消费明细无法...
阅读全文

什么是数值归约(数据削减):数值归约的处理方法

什么是数值归约:数值归约的方法 数值归约是指用较简单的数据表示形式替换原数据,或者采用较小的数据单位,或者用数据模型代替数据以减少数据量。常用的方法有直方图、用聚类数据表示实际数据、抽样和参数回归法等...
阅读全文

什么是维归约:维归约的处理方法

什么是维归约:维归约的处理方法 数据归约,也叫数据削减,是指在尽可能保持数据原貌的前提下,最大限度地精简数据量。 维归约是从原有的数据中删除不重要或不相关的属性,或者通过对属性进行重组来减少属性的个数...
阅读全文

什么是冗余数据:冗余数据的处理方法

什么是冗余数据:冗余数据的处理方法 冗余数据既包括重复的数据,也包括对分析处理的问题无关的数据,通常采用过滤数据的方法来处理冗余数据。对于重复的数据采用重复过滤的方法,对于无关的数据则采用条件过滤的方...
阅读全文

什么是噪声数据:噪声数据的处理方法

什么是噪声数据:噪声数据的处理方法 噪声数据是指在测量一个变量时测量值可能出现的相对于真实值的偏差或错误,这种数据会影响后续分析操作的正确性与效果。噪声数据主要包括错误数据、假数据和异常数据。异常数据...
阅读全文