Klassifizierungsmodelle für Batch- und Daten-Streaming zur Erkennung von unerwünschten Ereignissen und zum Verständnis der Einflussfaktoren
Publikation anzeigen
Abstrakt
Die Entwicklung wirksamer Modelle zur Erkennung, Reduzierung und / oder Verhinderung von unerwünschten Ereignissen ist in Bereichen wie Flugsicherheit, Gesundheitsfürsorge, Arzneimittelverwaltung und Kriegsschauplätzen von großer Bedeutung. Diese Studie präsentiert Batch- und Daten-Streaming-Modelle zur Erkennung von unerwünschten Ereignissen unter Verwendung von Daten aus einem Kriegstheaterkontext. In allen vorhergehenden Studien wurden Regressionsmodelle und verschiedene Techniken des maschinellen Lernens zur Vorhersage kontinuierlicher Werte in einem aktiven Kriegsschauplatz verwendet, und die auf den Testsätzen angegebenen Fehlerwerte waren groß. Um dieses Manko zu beseitigen, untersucht diese Studie die Wirksamkeit von Klassifizierungsalgorithmen für Batch- und Daten-Streaming bei der Erkennung oder Klassifizierung von unerwünschten Ereignissen angesichts von Ausgaben für die Infrastrukturentwicklung und anderer Variablen in einem aktiven Kriegsschauplatz in Afghanistan. Durch die Featureauswahl werden die gültigen Eingabevariablen erhalten, und ihre Indizes zeigen, dass die Eingabevariablen hauptsächlich die unerwünschten Ereignisse (t-1) des Vormonats, die Bevölkerungsdichte und damit verbundene Projektinvestitionen sind. Auf Länderebene wirken sich weniger 14-Projektinvestitionen auf die unerwünschten Ereignisse aus. Auf regionaler Ebene sind einige Projekte mit höheren Indexwerten wie Sicherheit im Südwesten, Energie- und Soforthilfe im Nordosten und Bildung im Osten hauptsächlich von Einflussfaktoren betroffen. Drei Chargenklassifizierungsmethoden und drei Datenstromklassifizierungsmethoden wurden auf ihre Fähigkeit hin untersucht, unerwünschte Ereignisse anhand von Infrastrukturentwicklungsdaten zu erkennen. Die Studie verwendet kostensensitive Maßnahmen, um den sehr unausgewogenen Charakter der Daten zu beheben, und wendet Techniken zur Variablenreduktion an, um signifikante Variablen zu identifizieren. Die drei Stapelklassifizierungsalgorithmen sind C4.5, k-nächster Nachbar und Support Vector Machine. Die drei Daten-Streaming-Algorithmen sind Naive Bayes, Hoeffding Tree und Single Classifier Drift. Im Allgemeinen ist die Leistung der kostensensitiven Methoden in der Stapeleinstellung mit der in der Datenstromeinstellung vergleichbar. In der Chargeneinstellung muss die Kostenmatrix jedoch manuell angepasst werden. Im Gegensatz dazu können Sie mit der Einstellung für den Datenstrom die Modelle basierend auf der Analyse der Leistung der Klassifizierer über die Zeit und der Änderung der Datenverteilung anpassen. Die Kappa-Werte unter Verwendung von Naïve Bayes sind die höchsten der drei Datenstromalgorithmen im ganzen Land und in seinen Regionen. Der Klassifikator von Naïve Bayes weist die weltweit beste Leistung auf. Anhand der Kappa-Statistikkurve können wir die Konzeptverschiebungen beobachten. Auf regionaler Ebene weisen viele Modelle eine bessere Leistung auf, einschließlich mehr projektbezogener Investitionen als auf Länderebene. Darüber hinaus übertreffen die Klassifizierer in der Datenstromeinstellung im Vergleich zu den Klassifizierern in der Stapeleinstellung die Gesamtklassifizierungsraten, wenn die Datenverteilung ausgeglichener wird.