मुख्य सामग्री पर जाएं

टेक्स्ट गाइड: फीचर महत्व के आधार पर टेक्स्ट चयन विधि द्वारा लंबे टेक्स्ट वर्गीकरण की गुणवत्ता में सुधार

जोज़ेफ़ एम। ज़ुराडा, पीएचडी फिओक, के. कार्वोव्स्की, डब्ल्यू। गुटिरेज़-फ्रेंको, ई. दावली, एम। विलीमोव्स्की, एम। अहराम, टी. अल-जुएद, ए.
आईईईई प्रवेश। जुलाई 26, 2021

प्रकाशन देखें

सार

512 से कम टोकन वाले टेक्स्ट इंस्टेंस के लिए पिछले दशक में टेक्स्ट वर्गीकरण विधियों के प्रदर्शन में काफी सुधार हुआ है। लंबे टेक्स्ट इंस्टेंस का विश्लेषण करने की उच्च कम्प्यूटेशनल लागत के कारण अधिकांश अत्याधुनिक ट्रांसफॉर्मर मॉडल द्वारा इस सीमा को अपनाया गया है। इस समस्या को कम करने और लंबे ग्रंथों के वर्गीकरण में सुधार करने के लिए, शोधकर्ताओं ने कम्प्यूटेशनल लागत के अंतर्निहित कारणों को हल करने की मांग की है और ध्यान तंत्र के लिए अनुकूलन का प्रस्ताव दिया है, जो हर ट्रांसफार्मर मॉडल का प्रमुख तत्व है। हमारे अध्ययन में, हम लंबे पाठ वर्गीकरण के अंतिम लक्ष्य का पीछा नहीं कर रहे हैं, अर्थात, एक उचित कम्प्यूटेशनल लागत पर उच्च प्रदर्शन को संरक्षित करते हुए एक समय में संपूर्ण पाठ उदाहरणों का विश्लेषण करने की क्षमता। इसके बजाय, हम टेक्स्ट गाइड नामक एक टेक्स्ट ट्रंकेशन विधि का प्रस्ताव करते हैं, जिसमें मूल टेक्स्ट लंबाई को पूर्वनिर्धारित सीमा तक कम कर दिया जाता है जिससे कम कम्प्यूटेशनल लागतों को संरक्षित करते हुए निष्पक्ष और अर्ध-निष्क्रिय दृष्टिकोणों पर प्रदर्शन में सुधार होता है। टेक्स्ट गाइड फीचर महत्व की अवधारणा से लाभान्वित होता है, व्याख्या योग्य कृत्रिम बुद्धिमत्ता डोमेन से एक धारणा। हम प्रदर्शित करते हैं कि टेक्स्ट गाइड का उपयोग हाल के भाषा मॉडल के प्रदर्शन को बेहतर बनाने के लिए किया जा सकता है, विशेष रूप से लॉन्गफॉर्मर जैसे लंबे टेक्स्ट वर्गीकरण के लिए डिज़ाइन किया गया है। इसके अलावा, हमने पाया कि पैरामीटर ऑप्टिमाइज़ेशन टेक्स्ट गाइड के प्रदर्शन की कुंजी है और इस पद्धति को लागू करने से पहले आयोजित किया जाना चाहिए। भविष्य के प्रयोग इस नई पद्धति द्वारा प्रदान किए गए अतिरिक्त लाभों को प्रकट कर सकते हैं।