Saltar al contenido principal

Modelos de clasificación por lotes y transmisión de datos para detectar eventos adversos y comprender los factores que influyen

Dr. Jozef M. Zurada Jian (Jeff) Guan, doctorado D.Shi W. Karwowski E. Cakit
Aplicaciones de ingeniería de la inteligencia artificial. Junio ​​13, 2019

Ver publicación

Resumen

La construcción de modelos efectivos para detectar, reducir y / o prevenir eventos adversos es muy importante en dominios como la seguridad de la aviación, la atención médica, la administración de medicamentos y los teatros de guerra. Este estudio presenta modelos de transmisión por lotes y de datos para detectar eventos adversos utilizando datos de un contexto de teatro de guerra. En todos los estudios anteriores, se utilizaron modelos de regresión y varias técnicas de aprendizaje automático para predecir valores continuos en un escenario de guerra activo, y los valores de error informados en los conjuntos de pruebas fueron grandes. Para superar la deficiencia, este estudio investiga la efectividad de los algoritmos de clasificación por lotes y transmisión de datos para detectar o clasificar eventos adversos dados los datos de gasto en desarrollo de infraestructura y otras variables en un teatro de guerra activo en Afganistán. Mediante la selección de características, se obtienen las variables de entrada válidas y sus índices muestran que las variables de entrada son principalmente los eventos adversos (t-1) del mes anterior, las densidades de población y las inversiones del proyecto relacionadas. A nivel de país, menos de las 14 inversiones del proyecto afectan los eventos adversos. A nivel regional, algunos proyectos con valores de índice más altos, como Seguridad en la región Suroeste, Energía y Asistencia de Emergencia en la Región Nororiental, y Educación en la Región Oriental, son factores que inciden principalmente. Se evaluaron tres métodos de clasificación de lotes y tres métodos de clasificación de transmisión de datos para determinar su capacidad para detectar eventos adversos dados los datos de desarrollo de infraestructura. El estudio utiliza medidas sensibles a los costos para abordar la naturaleza muy desequilibrada de los datos y aplica técnicas de reducción de variables para identificar variables significativas. Los tres algoritmos de clasificación de lotes son C4.5, vecino más cercano k y máquina de vectores de soporte. Los tres algoritmos de transmisión de datos son Naïve Bayes, Hoeffding Tree y Single Classifier Drift. En general, el rendimiento de los métodos sensibles al costo en la configuración por lotes es comparable a los de la configuración del flujo de datos. Sin embargo, en la configuración por lotes, la matriz de costos debe ajustarse manualmente. Por el contrario, la configuración del flujo de datos permite ajustar los modelos en función del análisis del rendimiento de los clasificadores a lo largo del tiempo y la distribución cambiante de los datos. Los valores de Kappa utilizando Naïve Bayes son los más altos en los tres algoritmos de flujo de datos en todo el país y sus regiones. El clasificador Naïve Bayes tiene el mejor rendimiento global. Por la curva estadística de Kappa, podemos observar las desviaciones del concepto. A nivel de región, muchos modelos tienen un mejor desempeño, incluidas más inversiones relacionadas con el proyecto en comparación con las de un país. Además, a medida que la distribución de datos se vuelve más equilibrada, los clasificadores en la configuración del flujo de datos superan en términos de las tasas de clasificación generales en comparación con los clasificadores en la configuración por lotes.