数据采集的方法:系统日志与数据库采集
通过RFID射频、传感器、社交网络、移动互联网等方式可以获得各种类型的数据,包括结构化、半结构化及非结构化的数据。由于这些数据具有数据量大、异构等特点,因此,必须采用专门针对大数据的采集方法。
1.系统日志采集
许多公司的业务平台每天都会产生大量的日志数据。日志收集系统要做的事情就是收集业务日志数据供离线和在线的分析系统使用。高可用性、高可靠性、可扩展性是日志收集系统所具有的基本特征。目前常用的开源日志收集系统有Flume、Scribe等。
2.网络数据采集
网络数据采集即对非结构化数据的采集,是指通过网络爬虫或网站公开API(应用程序编程接口)等方式从网站上获取数据信息。该方法可以将非结构化数据从网页中抽取出来,以结构化的方式将其存储为统一的本地数据文件。它支持图片、音频和视频等文件或附件的采集,附件与正文可以自动关联。除了网络中包含的内容之外,对于网络流量的采集可以使用DPI(深度报文检测)或DFI(深度/动态流检测)等带宽管理技术进行处理。
3.数据库采集
一些企业会使用传统的关系型数据库,如MySQL、Oracle和SQL Server等来存储数据。除此之外,Redis和MongoDB这样的NoSQL(非关系型)数据库也常用于数据的采集,这种情况通常在采集端部署大量数据库,并在这些数据库之间进行负载均衡。