Перейти к основному содержанию

Текстовое руководство: повышение качества классификации подробного текста с помощью метода выделения текста на основе важности функции

Йозеф М. Зурада, доктор философии Фиок, К. Карвовски, В. Гутьеррес-Франко, Э. Давахли, М. Вильямовский, М. Ахрам, Т. Аль-Джуайд, А.
Доступ IEEE, Июль 26, 2021

Посмотреть публикацию

Абстрактные

Производительность методов классификации текста значительно улучшилась за последнее десятилетие для текстовых экземпляров менее 512 токенов. Этот предел принят большинством современных моделей преобразователей из-за высоких вычислительных затрат на анализ более длинных текстовых экземпляров. Чтобы смягчить эту проблему и улучшить классификацию более длинных текстов, исследователи попытались устранить основные причины вычислительных затрат и предложили оптимизацию для механизма внимания, который является ключевым элементом каждой модели преобразователя. В нашем исследовании мы не преследуем конечную цель классификации длинных текстов, т. Е. Возможность анализировать все экземпляры текста за один раз, сохраняя при этом высокую производительность при разумных вычислительных затратах. Вместо этого мы предлагаем метод усечения текста под названием Text Guide, в котором исходная длина текста сокращается до предопределенного предела таким образом, чтобы повысить производительность по сравнению с наивными и полунаивными подходами, сохраняя при этом низкие вычислительные затраты. В текстовом справочнике используется концепция важности функций, понятие из объяснимой области искусственного интеллекта. Мы демонстрируем, что Text Guide можно использовать для повышения производительности последних языковых моделей, специально разработанных для классификации длинных текстов, таких как Longformer. Более того, мы обнаружили, что оптимизация параметров является ключом к производительности Text Guide и должна проводиться до внедрения метода. Будущие эксперименты могут выявить дополнительные преимущества этого нового метода.

Chinese (Simplified)EnglishGermanHindiRussianSpanish