蓝盾分布式数据采集子系统,让数据采集更高效可靠
2014-06-04 17:03:07 来源: 评论:0 点击:
蓝盾分布式数据采集子系统 蓝盾自主研发的分布式数据采集子系统,具有高效、稳定的特点,可以以每分钟100W条以上的采集速度对文本、应用程序、数据库等数据文件进行采集,数据稳定不丢失地持久化入库,可以对数据进行挖掘,也可以对日志进行全文检索、去私隐化,对日志进行导入导出,等等。 下面请各位读者跟随笔者,一起来探索该系统的技术组成以及实现原理。 系统架构 蓝盾分布式数据采集子系统,系统架构如下图所示。
系统分为数据源、分布式缓存、分布式存储与计算、业务处理、可视化展示共5层,还有对这5层进行管理的“统一调度与管理”模块。 数据源层,由“数据采集组件(生产者)”模块对各个节点上面的文本、应用程序、数据库等进行采集,推送到分布式缓存层。 分布式缓存层,由LVS对各个节点的消息队列组件进行负载均衡,提供一个统一的接口来接收并写入数据源节点推送过来的数据,等待分布式存储与计算层的“数据采集组件(消费者)”来读取。 分布式存储与计算层,主要由离线计算模块(由Hadoop及其生态系统组成)、实时计算模块(由Storm组成)、分布式存储和搜索引擎组成,提供存储与计算的功能。该层还有对分布式缓存层进行数据读取的“数据采集组件(消费者)”模块。 业务处理层,主要提供统计分析和数据挖掘的功能与服务,由上层进行调用。 可视化展示层,提供普通查询、全文检索、报表展示、导入导出等功能。 统一调度与管理模块,对这5层进行统一的调度与管理,基于工作流,自动化处理。 系统运行原理 首先,由部署在各个节点上面的“数据采集组件(生产者)”对本节点的文本、应用程序、数据库等数据进行采集,推送到某个域名或者地址,例如192.168.1.100:12346(LVS产生的虚拟IP)。 然后,LVS会接收到数据,自动转发到某个节点的消息队列中,消息队列进行写入数据并等待被读取。 接着,由实时计算模块调用“数据采集组件(消费者)”定时对消息队列进行轮询,读取数据,简单分类处理之后,存入分布式存储与搜索引擎中。 然后,离线计算模块会在一定时间内被调用,对分布式存储和搜索引擎的数据进行二次计算并写回。 接着,业务处理模块,会接收并执行上层提交过来的命令,对分布式存储和搜索引起的数据进行统计分析和数据挖掘。 最后,由可视化展示层,对所有的数据进行可视化展示,并接收用户的交互指令往下层下发等待返回结果。 |
相关热词搜索:

评论排行
- ·河北医科大学第三医院邵德成擅自篡改伪...(451)
- ·中国当代名人书画院院士冯勇建(64)
- ·我们约会吧+ 陈文最新个人资料简介照片...(59)
- ·《山东临沭党校一女嫁二男为哪般》续一(18)
- ·圣象“新实木”地板遭起诉或赔200万元(11)
- ·九江仁爱医院黑幕 17岁少女普通人流两...(8)
- ·河北清河公安:一个被“休”了13年的听证会(7)
- ·百度360搜索大战蓄势待发 用户何去何从(6)
- ·陕西兴平一燃气管道企业存在安全隐患违...(6)
- ·武威:熏醋厂不明气体“熏”翻两员工 ...(6)
- ·从丝芙兰美国封杀中国用户风波,看到菩...(6)
- ·我们约会吧 耿玉茹最新个人资料简介照片(5)
- ·重庆一高级法院“审判意见”指导下级法...(4)
- ·开学在即 幼儿园为何莫名被拆(4)
- ·卡仙奴百分百识别骗子(4)
- · 励志!!毕业拒绝失业!!听创业者讲述...(4)
- ·我们约会吧+ 邸秋红最新个人资料简介照片(3)
- ·新西兰肉毒杆菌发酵 多美滋问题产品仍...(3)
- ·iPhone4S被盗还能不能找回,苹果手机丢...(3)
- ·陕西兴平两家天然气公司市场资源争夺的...(3)