首页 > 新闻 > 滚动 > 正文

蓝盾分布式数据采集子系统,让数据采集更高效可靠
2014-06-04 17:03:07   来源:   评论:0 点击:

  蓝盾分布式数据采集子系统蓝盾自主研发的分布式数据采集子系统,具有高效、稳定的特点,可以以每分钟100W条以上的采集速度对文本、应用程序、数据库等数据文件进行采集,数据稳定不丢失地持久化入库,可以对数据进行 ...
 
 

   蓝盾分布式数据采集子系统

  蓝盾自主研发的分布式数据采集子系统,具有高效、稳定的特点,可以以每分钟100W条以上的采集速度对文本、应用程序、数据库等数据文件进行采集,数据稳定不丢失地持久化入库,可以对数据进行挖掘,也可以对日志进行全文检索、去私隐化,对日志进行导入导出,等等。

下面请各位读者跟随笔者,一起来探索该系统的技术组成以及实现原理。 

   系统架构

蓝盾分布式数据采集子系统,系统架构如下图所示。

 

 

  系统分为数据源、分布式缓存、分布式存储与计算、业务处理、可视化展示共5层,还有对这5层进行管理的“统一调度与管理”模块。

  数据源层,由“数据采集组件(生产者)”模块对各个节点上面的文本、应用程序、数据库等进行采集,推送到分布式缓存层。

  分布式缓存层,由LVS对各个节点的消息队列组件进行负载均衡,提供一个统一的接口来接收并写入数据源节点推送过来的数据,等待分布式存储与计算层的“数据采集组件(消费者)”来读取。

  分布式存储与计算层,主要由离线计算模块(由Hadoop及其生态系统组成)、实时计算模块(由Storm组成)、分布式存储和搜索引擎组成,提供存储与计算的功能。该层还有对分布式缓存层进行数据读取的“数据采集组件(消费者)”模块。

  业务处理层,主要提供统计分析和数据挖掘的功能与服务,由上层进行调用。

  可视化展示层,提供普通查询、全文检索、报表展示、导入导出等功能。

  统一调度与管理模块,对这5层进行统一的调度与管理,基于工作流,自动化处理。 

   系统运行原理

  首先,由部署在各个节点上面的“数据采集组件(生产者)”对本节点的文本、应用程序、数据库等数据进行采集,推送到某个域名或者地址,例如192.168.1.100:12346(LVS产生的虚拟IP)。

  然后,LVS会接收到数据,自动转发到某个节点的消息队列中,消息队列进行写入数据并等待被读取。

  接着,由实时计算模块调用“数据采集组件(消费者)”定时对消息队列进行轮询,读取数据,简单分类处理之后,存入分布式存储与搜索引擎中。

  然后,离线计算模块会在一定时间内被调用,对分布式存储和搜索引擎的数据进行二次计算并写回。

  接着,业务处理模块,会接收并执行上层提交过来的命令,对分布式存储和搜索引起的数据进行统计分析和数据挖掘。

  最后,由可视化展示层,对所有的数据进行可视化展示,并接收用户的交互指令往下层下发等待返回结果。

相关热词搜索:

上一篇:天楹之光 问鼎光亚—天楹之光将闪耀亮相2014光亚展
下一篇:大爱无言,任重如山,保龄宝专注健康17年

分享到: 收藏