跳到主要内容

用于检测不良事件和理解影响因素的批处理和数据流分类模型

人工智能的工程应用。 六月13,2019

查看出版物

抽象

构建用于检测,减少和/或预防不良事件的有效模型在诸如航空安全,医疗保健,药物管理和战争剧院等领域中非常重要。 该研究使用来自战区背景的数据来呈现批量和数据流模型以检测不良事件。 在之前的所有研究中,回归模型和几种机器学习技术被用于预测战争战场中的连续值,并且测试集上报告的误差值很大。 为了克服这个缺点,本研究调查了批量和数据流分类算法在阿富汗战争战场中给予基础设施开发支出数据和其他变量的不利事件的检测或分类的有效性。 通过特征选择,获得有效输入变量,并且它们的指数显示输入变量主要是上个月的不利事件(t-1),人口密度和相关项目投资。 从国家层面来看,较少的14项目投资会影响不良事件。 从区域层面来看,一些指数值较高的项目,如西南地区的安全,东北地区的能源和紧急援助以及东部地区的教育,主要是影响因素。 评估了三种批次分类方法和三种数据流分类方法在给定基础设施开发数据的情况下检测不良事件的能力。 该研究使用成本敏感的措施来解决数据的非常不平衡的性质,并应用变量减少技术来识别重要变量。 三种批次分类算法是C4.5,k-nearest Neighbor和Support Vector Machine。 三种数据流算法是NaïveBayes,Hoeffding Tree和Single Classifier Drift。 通常,批量设置中成本敏感方法的性能与数据流设置中的性能相当。 但是,在批量设置中,需要手动调整成本矩阵。 相比之下,数据流设置允许人们根据分类器随时间的性能分析和不断变化的数据分布来调整模型。 使用NaïveBayes的Kappa值在全国及其地区的三种数据流算法中是最高的。 NaïveBayes分类器具有最佳的全球性能。 通过Kappa统计曲线,我们可以观察到概念漂移。 在区域层面,许多模型具有更好的性能,包括与项目相关的更多投资与国家层面相比。 此外,随着数据分布变得更加平衡,与批量设置中的分类器相比,数据流设置中的分类器在总体分类率方面表现优异。 因此,结果证明了当数据变得不平衡时数据流算法的显着优势,并且可用于检测类似区域中的不利事件。

简体中文英语德语印地语俄语