电子政务

云计算环境下电子政务大数据系统填补及分类算

 

进入"互联网+"时代,人们从生产、生活中积累的数据呈现爆发式増长,数据已成为重要的战略资源,如何利用海量数据发现新知识己成为数据挖掘领域的研究热点。政府在进行电子政务的工作时,会存在大量的数据资料信息,这些信息包含了政府的政务处理信息、公民数据信息等隐私的数据信息,因此,为了防止这些数据丢失或泄漏,这些数据通常需要被高度保障[1]。随着我国云计算环境的影响力越来越大,规模庞大的数据中心被应用得越来越广泛,但也正是因为数据中心的规模庞大,处理数据时经常会发生数据丢失的问题,针对这个问题,相关学者开展了一系列研究。

首先构建了云计算光纤通信的大数据分段特征分解模型,通过结构参数模型提取大数据的关联特征,采用模糊C均值聚类法分类处理,构建残差变量对分类后的大数据进行线性规划融合分类。该方法大数据聚类调度的准确性较高,提高了数据处理能力,但分类精度较低[2]。还有方法[3]选取偏最小二乘法提取数据主成分,绘制椭圆图辨识异常值,利用最小残差回归法对时序数据进行预测,最后构建基于粒子群优化的最小二乘支持向量机模型对其缺失数据进行填补。该方法提升了数据的拟合效果,但是操作过程较为繁琐,时延性高。

相关研究[4]在生成第一项规则时考虑属性值及属性值补的好坏,提高了规则的质量,在判断测试数据时,对其各个属性值进行二次学习提取规则,该过程有效地提高了大数据分类的准确度。

数据中心的数据量庞大,因此,必须要提高数据处理的效率。因此文中针对政府在使用电子政务大数据系统时发生的数据丢失问题,提出了电子政务大数据系统填补算法,解决了数据缺失的难题,并在此基础上提出了基于云计算环境下电子政务大数据系统填补并行优化,极大地提高了填补缺失数据的效率[5]。文中构建了一种新的云计算环境下电子政务大数据系统分类模型,通过采用决策森林算法来对庞大的数据进行分类处理,并对决策森林算法进行增量更新处理,使得大数据系统能够根据数据的不断变化而不断改变模式,最后对该算法进行了并行优化处理,使得处理效率大幅度提高。针对所提出的方法进行实验证明,结果表明,文中提出的云计算环境下电子政务大数据系统填补及分类算法相比于传统方式使用的算法有很大的优势。

1 云计算环境下电子政务大数据系统填补方法

在当今云计算环境与大数据时代下,电子政务大数据中心的能耗大数据规模十分庞大,经常出现数据采集信息时丢失,设备出现故障、意外断电等不稳定因素,导致了数据信息的缺失与损坏,造成损失,以往解决此困难的方式通常使用粗糙集理论,但粗糙集理论只能处理小批量的数据,处理过程十分繁琐[6-8]。基于此,文中提出了从相容关系理论扩展的完备相容理论,在此理论的基础上提出了电子政务大数据系统填补算法,以此解决电子政务数据中心数据缺失的属性值问题。基于此构建电子政务大数据系统的管理架构如图1所示。

图1 电子政务大数据系统管理架构

由图1可知,在整个管理架构中包含数据中心、集群监控模块、传感器等内容。其中,原始数据集利用集群监控获取数据,以得到可用于操作的原始数据集,为后期的数据填补和分类提供可依数据。文中提出了在完备相容理论基础上的电子政务大数据填补算法,以此解决电子政务数据中心数据缺失问题。该流程主要过程为将数据的属性值离散化,打断其连续性,筛选出缺失的数据信息进行分离处理,并将属性值进行排列处理,再进行倒排索引处理,进而检测出缺失数据是否为完备相容类数据,若是完备相容性数据,则采用最小值原则,采用对应条件的属性产生的对应性决策属性来填补缺失的属性值,若缺失数据为不完备相容性数据,则采用筛选出缺失属性频率最大的属性值进行填补[9-11]。

在进行数据缺失填补的过程中,采用双聚类方法对数据集进行聚类分解,根据数据特征的差异将数据集划分为多个具有不同特征的数据簇,利用数据簇内平均残差越小则簇内数据的相似度越高这一聚类思想,通过数学分析实现数据集中缺失数据的预测,并将求解数据簇的最小平均残差问题转化为二次函数形式,利用二次函数的极小值思想求解缺失数据值。具体算法如下:

设B为数据集,C为对应的表达属性集,aij为多维数据表达矩阵D中的数据元素。设I,J分别表示B、C的子集,则I,J对指定的子矩阵Aij的平均残差计算公式为: