Direkt zum Inhalt

Textleitfaden: Verbesserung der Qualität der Langtextklassifikation durch eine Textauswahlmethode basierend auf der Merkmalwichtigkeit

Jozef M. Zurada, PhD Fiok, K. Karwowski, W. Gutiérrez-Franco, E. Davalli, M. Wilhelmowski, M. Ahram, T. Al-Juaid, A.
IEEE-Zugriff. Juli 26, 2021

Publikation anzeigen

Abstrakt

Die Leistung von Textklassifizierungsverfahren hat sich in den letzten zehn Jahren für Textinstanzen von weniger als 512 Token stark verbessert. Diese Grenze wurde aufgrund des hohen Rechenaufwands für die Analyse längerer Textinstanzen von den meisten modernen Transformermodellen übernommen. Um dieses Problem zu mildern und die Klassifikation für längere Texte zu verbessern, haben die Forscher versucht, die zugrunde liegenden Ursachen der Rechenkosten zu lösen und haben Optimierungen für den Aufmerksamkeitsmechanismus vorgeschlagen, der das Schlüsselelement jedes Transformatormodells ist. In unserer Studie verfolgen wir nicht das ultimative Ziel der Langtextklassifikation, dh die Möglichkeit, ganze Textinstanzen auf einmal zu analysieren und gleichzeitig eine hohe Leistung bei vertretbarem Rechenaufwand zu erhalten. Stattdessen schlagen wir eine Textkürzungsmethode namens Text Guide vor, bei der die ursprüngliche Textlänge auf eine vordefinierte Grenze auf eine Weise reduziert wird, die die Leistung gegenüber naiven und semi-naiven Ansätzen verbessert und gleichzeitig niedrige Rechenkosten beibehält. Text Guide profitiert vom Konzept der Bedeutung von Funktionen, einem Konzept aus dem Bereich der erklärbaren künstlichen Intelligenz. Wir zeigen, dass Text Guide verwendet werden kann, um die Leistung neuerer Sprachmodelle zu verbessern, die speziell für die Klassifizierung von Langtext entwickelt wurden, wie z. B. Longformer. Darüber hinaus haben wir festgestellt, dass die Parameteroptimierung der Schlüssel zur Leistung von Text Guide ist und durchgeführt werden muss, bevor die Methode eingesetzt wird. Zukünftige Experimente können zusätzliche Vorteile dieser neuen Methode aufzeigen.