Apache Flume的特点与工作原理
Apache Flume(http://flume.apache.org/)是一个分布式的海量数据收集系统,同时具备推送和拉取两种数据收集方式,还可以支持发送方定制数据,并可以对数据进行简单处理。
Flume最早属于Cloudera公司,2011年被纳入Apache社区。Flume的核心模块有三个,即源头、通道和沉淀器。
(1)源头(Source):负责接收数据,从数据源头接收数据,并将其传递给通道。
(2)通道(Channel):作为一个管道或队列,连接源头和沉淀器。
(3)沉淀器(Sink):从通道批量读取数据,并将其存储到指定的位置。
图2-8所示的是Flume的基本工作原理图。
图2-8 Flume的基本工作原理图