मुख्य सामग्री पर जाएं

प्रतिकूल घटनाओं का पता लगाने और प्रभावित कारकों को समझने के लिए बैच और डेटा स्ट्रीमिंग वर्गीकरण मॉडल

जोज़ेफ़ एम। ज़ुराडा, पीएचडी जियान (जेफ) गुआन, पीएचडी डी। शि डब्ल्यू। करवॉस्की ई। काकीट
आर्टिफिशियल इंटेलिजेंस के इंजीनियरिंग अनुप्रयोग। जून 13, 2019

प्रकाशन देखें

सार

विमानन सुरक्षा, स्वास्थ्य सेवा, ड्रग प्रशासन और युद्ध थिएटर जैसे डोमेन में प्रतिकूल घटनाओं का पता लगाने, कम करने और / या रोकने के लिए प्रभावी मॉडल बनाना बहुत महत्वपूर्ण है। यह अध्ययन युद्ध थियेटर संदर्भ से डेटा का उपयोग करके प्रतिकूल घटनाओं का पता लगाने के लिए बैच और डेटा स्ट्रीमिंग मॉडल प्रस्तुत करता है। पिछले सभी अध्ययनों में, युद्ध के एक सक्रिय थिएटर में निरंतर मूल्यों की भविष्यवाणी के लिए प्रतिगमन मॉडल और कई मशीन लर्निंग तकनीकों का उपयोग किया गया था, और परीक्षण सेटों पर रिपोर्ट किए गए त्रुटि मान बड़े थे। कमी को दूर करने के लिए, यह अध्ययन अफगानिस्तान में युद्ध के एक सक्रिय थिएटर में बुनियादी ढांचा विकास खर्च डेटा और अन्य चर दिए गए प्रतिकूल घटनाओं का पता लगाने या वर्गीकृत करने में बैच और डेटा स्ट्रीमिंग वर्गीकरण एल्गोरिदम की प्रभावशीलता की जांच करता है। सुविधा चयन के द्वारा, वैध इनपुट चर प्राप्त किए जाते हैं और उनके सूचकांक दर्शाते हैं कि इनपुट चर मुख्य रूप से पिछले महीने में प्रतिकूल घटनाओं (टी-एक्सएनयूएमएक्स), जनसंख्या घनत्व और संबंधित परियोजना निवेश हैं। देश स्तर से, 14 परियोजना निवेशों में से कम प्रतिकूल घटनाओं को प्रभावित करते हैं। क्षेत्र स्तर से, उच्च सूचकांक मूल्यों वाली कुछ परियोजनाएं, जैसे दक्षिण पश्चिमी क्षेत्र में सुरक्षा, उत्तर पूर्वी क्षेत्र में ऊर्जा और आपातकालीन सहायता, और पूर्वी क्षेत्र में शिक्षा मुख्य रूप से कारकों को प्रभावित कर रही हैं। बुनियादी ढांचे के विकास के आंकड़ों को देखते हुए प्रतिकूल घटनाओं का पता लगाने की उनकी क्षमता के लिए तीन बैच वर्गीकरण विधियों और तीन डेटा स्ट्रीमिंग वर्गीकरण विधियों का मूल्यांकन किया गया था। अध्ययन डेटा की बहुत असंतुलित प्रकृति को संबोधित करने के लिए लागत-संवेदनशील उपायों का उपयोग करता है और यह महत्वपूर्ण चर की पहचान करने के लिए परिवर्तनीय कमी तकनीकों को लागू करता है। तीन बैच वर्गीकरण एल्गोरिदम C4.5, k- निकटतम पड़ोसी, और समर्थन वेक्टर मशीन हैं। तीन डेटा स्ट्रीमिंग एल्गोरिदम Na Bayve Bayes, Hoeffding Tree और सिंगल क्लासिफायर बहाव हैं। सामान्य तौर पर, बैच सेटिंग में लागत-संवेदनशील तरीकों का प्रदर्शन डेटा स्ट्रीम सेटिंग में तुलनात्मक होता है। हालांकि, बैच में सेटिंग मैट्रिक्स को मैन्युअल रूप से समायोजित करने की आवश्यकता है। इसके विपरीत डेटा स्ट्रीम सेटिंग किसी को समय के साथ क्लासिफायर के प्रदर्शन के विश्लेषण और डेटा वितरण के आधार पर मॉडल को समायोजित करने की अनुमति देती है। Na Bayve Bayes का उपयोग करने वाले कप्पा मान पूरे देश और इसके क्षेत्रों में तीन डेटा स्ट्रीम एल्गोरिदम में सबसे अधिक हैं। नाओवे बेयस क्लासिफायर में सर्वश्रेष्ठ वैश्विक प्रदर्शन है। कप्पा स्टेटिस्टिक वक्र द्वारा, हम अवधारणा के बहाव का निरीक्षण कर सकते हैं। एक क्षेत्र स्तर में, कई मॉडल में बेहतर प्रदर्शन होता है, जिसमें देश स्तर के साथ तुलना में परियोजना से संबंधित अधिक निवेश शामिल होते हैं। डेटा वितरण अधिक संतुलित हो जाने के अलावा, बैच सेटिंग में क्लासिफायर की तुलना में समग्र वर्गीकरण दरों के संदर्भ में आउटपरफॉर्म सेट करने वाली डेटा स्ट्रीम में क्लासिफायर।