Перейти к основному содержанию

Пакетные и потоковые классификационные модели для выявления нежелательных явлений и понимания влияющих факторов

Инженерные приложения искусственного интеллекта, Июнь 13, 2019

Посмотреть публикацию

Абстрактные

Создание эффективных моделей для обнаружения, уменьшения и / или предотвращения неблагоприятных событий очень важно в таких областях, как безопасность полетов, здравоохранение, прием лекарств и военные театры. В этом исследовании представлены модели пакетной обработки и потоковой передачи данных для обнаружения неблагоприятных событий с использованием данных из контекста военных действий. Во всех предыдущих исследованиях для прогнозирования непрерывных значений на активном театре военных действий использовались регрессионные модели и несколько методов машинного обучения, а значения ошибок, сообщаемые в тестовых наборах, были большими. Чтобы преодолеть этот недостаток, в этом исследовании исследуется эффективность алгоритмов классификации пакетов и потоков данных при обнаружении или классификации неблагоприятных событий с учетом данных о расходах на развитие инфраструктуры и других переменных на активном театре военных действий в Афганистане. При выборе функции получают действительные входные переменные, а их индексы показывают, что входные переменные - это, главным образом, неблагоприятные события (t-1) в предыдущем месяце, плотность населения и связанные с этим инвестиции в проект. На уровне страны меньшее количество инвестиций в проект 14 влияет на неблагоприятные события. На уровне региона некоторые проекты с более высокими значениями индекса, такие как безопасность в юго-западном регионе, энергетика и чрезвычайная помощь в северо-восточном регионе и образование в восточном регионе, в основном влияют на факторы. Три метода классификации партий и три метода классификации потоковых данных были оценены с точки зрения их способности выявлять неблагоприятные события с учетом данных о развитии инфраструктуры. В исследовании используются чувствительные к затратам меры для решения проблемы очень несбалансированного характера данных, а также применяются методы сокращения переменных для определения значимых переменных. Три алгоритма классификации партии: C4.5, k-ближайший сосед и машина опорных векторов. Три алгоритма потоковой передачи данных: Наивный Байес, Дерево Хоффдинга и Дрейф единого классификатора. В целом производительность чувствительных к стоимости методов в пакетном режиме сопоставима с параметрами в потоке данных. Однако в пакетном режиме матрицу затрат необходимо корректировать вручную. Напротив, настройка потока данных позволяет настраивать модели на основе анализа производительности классификаторов с течением времени и изменения распределения данных. Значения Каппа с использованием наивного байесовского алгоритма являются самыми высокими в трех алгоритмах потока данных во всей стране и ее регионах. Наивный байесовский классификатор имеет лучшие мировые показатели. По статистической кривой Каппа мы можем наблюдать смещение концепции. На региональном уровне многие модели демонстрируют лучшие результаты, включая больше инвестиций, связанных с проектом, по сравнению с инвестициями на уровне страны. Кроме того, по мере того, как распределение данных становится более сбалансированным, классификаторы в настройке потока данных превосходят в плане общих скоростей классификации по сравнению с классификаторами в параметрах пакета.