大数据的前身:美国国家航空航天局与大数据
1997年10月,美国国家航空航天局(NASA)阿姆斯研究中心的迈克尔•考克斯和大卫•埃尔斯沃斯在第八届美国电气和电子工程师协会(Institute of Electrical and Electronics Engineers,IEEE)关于可视化的会议论文集中发表了《为外存模型可视化而应用控制程序请求页面调度》的论文。
文章开篇写道:“可视化对计算机系统提出了一个有趣的挑战:通常情况下数据集相当大,耗尽了主存储器、本地磁盘甚至是远程磁盘的存储容量。我们将这一问题称为大数据。当主存储器(内核)无法容纳数据集,或者当本地磁盘都无法容纳数据集的时候,最常用的解决办法就是获取更多的资源。”这是在美国计算机学会的数字图书馆中第一篇使用“大数据”这一术语的文章。
1999年8月,史蒂夫•布赖森、大卫•肯怀特、迈克尔•考克斯、大卫•埃尔斯沃斯以及罗伯特•海门斯在《美国计算机协会通讯》上发表了《吉字节数据集的实时性可视化探索》一文。这是《美国计算机协会通讯》上第一篇使用“大数据”这一术语的文章。该文章有一个副标题“大数据的科学可视化”。文章开头指出:“功能强大的计算机是许多查询领域的福音。
它们也是祸害;高速运转的计算产生了规模庞大的数据。曾几何时,我们认为兆字节的数据集就很大了,如今我们在单个模拟计算中就发现了 300 GB 范围的数据集。但是研究高端计算产生的数据是一个很有意义的尝试。不止一位科学家曾经指出,审视所有的数字是极其困难的。正如数学家、计算机科学家先驱理查德•W.海明指出的:计算的目的是获得规律性的认识,而不是简单地获得数字。”
1999年10月,在美国电气电子工程师学会举办的可视化会议上,布赖森、肯怀特、海门斯与大卫•班克斯、罗伯特•范•里拉、山姆•思尔顿在名为“自动化或者交互:什么更适合大数据?”的专题讨论小组中共同探讨大数据的问题。