贵科大数据研究院
联系我们

我们坚信,唯有精益求精才能做出最好的产品!

                   地址

 贵州省贵阳市云岩区陕西路1号(贵州科学院四楼)

                 电话


           139-8511-0708

                 邮箱


      wangyajie@gzbdi.com

                 邮编


                  550008

基于 Hadoop 的食品安全云大数据分析挖掘平台的研发与应用

§   项目背景

食品安全云是贵州省重点发展的七朵云大数据示范工程之一,已经开发了实验室信息管理系统、考试系统、监管系统、企业信息管理系统、大众门户、舆情系统、百科系统、食安测手机客户端、食安监手机客户端等八大系统以及两个终端。目前已收录政府监管、食品检测、考试信息、企业信息、产品信息、法律法规、舆情数据以及百科知识等上千万条数据,数据量持续大幅增长。随着平台海量多元化数据的增长,急需寻找高效的大数据解决方案,解决大量数据的储存、高效运算、以及各系统的对接问题。

§   解决方案

1、搭建稳定的HADOOP/SPARK集群环境

食品安全云平台汇聚的数据形式多元,包含结构化、半结构化和非结构化数据。在数据规模未知的情况下,深入理解和分析多元化数据的格式、大小,并在相应的硬件资源(云上贵州)上部署和调试主流稳定的HADOOP/SPARK集群环境,是本项目的技术难点之一。食品安全云平台的数据量急剧增加,未来数据规模无法估算,并且云上贵州磁盘I/O较低,可能会对频繁操作的性能产生影响。目前只有寻找有效的技术解决方案,在云上贵州这样一个特殊的硬件资源上,动态的分配及调用资源,同时保证集群环境稳定。

2、确保HBASE和HDFS的可靠性

HBase和HDFS会备份三份数据,分布在不同的节点上,确保在个别节点异常的情况下不影响集群的使用,确保在一个机柜断电的情况下不影响数据的访问。为确保资源的合理利用,本项目针对采用阿里云等虚拟硬件服务器,开发可以根据客户需求来相应调整数据备份的方案以节约存储成本。

3、流处理引擎开发

大数据对数据处理的实时性要求比较高,例如要求在2秒内完成对数据的接收和计算。另外,如果数据的吞吐量过大,还需要防止因为阻塞造成的数据丢失或者溢出。由于流处理引擎技术是专门针对实时计算和高吞吐量的场景而提出的技术框架,对这类场景下可能出现的问题设计了特别的架构和解决方案。因此,采用流处理引擎技术能够很好地解决实时计算和高吞吐量所带来的一系列问题,从而提高整体系统的工作效率和健壮性。

§   项目成果

     1、食品安全云开放平台

  本项目开发了全面开放的数据平台(http://api.fsnip.com),设计了基于Hadoop/Spark的接口(API),实现的数据接口包含食品安全云平台企业门户、舆情系统、食安测、数据平台、技术社区、大众门户、SMS短信业务以及溯源平台等的接口。系统界面如下图所示:

开放平台.png

  2、基于Web的大数据任务和资源监控系统开发

通过建立处理模型、算法,对大数据任务进行一个合理的分配。平台组件会根据算法进行底层的、实际的工作,如监控资源、调度任务等。在此过程中,系统返回参考结果、对检测到的异常状态发出告警。

监控系统1.png

§   效益价值

1、开发的平台可实现对1000家食品企业进行大数据挖掘、分析服务,并可完成对50万条数据的结构化处理以及对100万多条多源数据的抽取、集成、存储和管理;

2、食品安全云发展至今沉淀了超过304,985,000+条核心行业数据。标准合规方面,包括国内外相关的技术合规库现行判定标准6,000+个,检测标准近5,000个,食品安全云舆情系统通过2000+专业食品内容发布网站,日均采集量超过20万条,食品舆情数据总量条数超过100,000,000+。本项目为食品安全云建设大数据基础平台,通过开发接口,使得食品安全云各系统之间的数据实现无缝连接,实现数据跨系统、跨平台的高速传输和高效计算,显著减少了企业的成本。