'
Цыганов Д.Н.
ОЦЕНКА ПРОИЗВОДИТЕЛЬНОСТИ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ В ЗАДАЧЕ УПРОЩЕНИЯ ПРЕДЛОЖЕНИЙ *
Аннотация:
работа посвящена оценке производительности больших языковых моделей в задаче упрощения предложений. Рассматриваемые модели варьируются от 60 миллионов до 176 миллиардов параметров, и все основаны на архитектуре трансформера, модели с открытыми весами представлены семействами T5, GPT, OPT, LLaMA, BLOOM, а также модели с закрытыми весами, которые разработаны OpenAI, в качестве базового референса используется MUSS. Модели оценивались на трёх наборах данных ASSET, MED-EASI, NEWSELA с помощью автоматических метрик SARI и BERTScore. Особое внимание уделяется обучению в контексте и выявлению лучших промптов для побуждения моделей к упрощению. Полученные результаты демонстрируют эффективность больших языковых моделей, обученных в контексте, на задаче упрощения предложений, а также выявлены лучшие модели в различных доменах данных.
Ключевые слова:
упрощение текста, упрощение предложений, большие языковые модели, контекст, промпт
Упрощение учебных текстов является важной и актуальной задачей в современном образовательном процессе. В условиях глобализации и увеличения числа, учащихся с различными образовательными потребностями, включая мигрантов, иностранных студентов и обучающихся с особыми потребностями, необходимость адаптации учебных материалов становится все более очевидной. В данных обстоятельствах становится актуальным вопрос о необходимости упрощения учебных текстов для повышения уровня понимания и усвоения материала. Так, в настоящее время широкое распространение получило использование больших языковых моделей (LLM) для решения данной проблемы. Задачу упрощения текста можно свести к упрощению предложений в этом тексте.Эта работа посвящена оценке производительности больших языковых моделей в задаче упрощения предложений. УП – это задача перефразирования предложения в новую форму, которая легче читается и понимается, сохраняя при этом его смысл.В данной работе рассматриваются модели архитектурой на базе Трансформера, так как на данный момент на всех стандартных задачах естественного языка модели на этой архитектуре достигают наилучших показателей метрик. Рассматриваемые модели варьируются от 60 миллионов до 176 миллиардов параметров, и все основаны на архитектуре трансформера. Различают модели с открытыми и закрытыми весами. Первые относятся к моделям, веса которых доступны и поэтому позволяют самостоятельное размещение. Обычно эти модели считаются с открытым исходным кодом. В сравнении, модели с закрытыми весами относятся к тем, веса которых остаются закрытыми и могут быть запрошены только через API. Исследуемые модели с открытыми весами включают варианты семейства T5, модели в стиле GPT, OPT и модели LLaMA, а также семейство BLOOM. Для моделей с закрытыми весами исследовались те, которые разработаны OpenAI [1].Оценка устанавливает производительность текущих LLM на УП в соответствии с тремя наборами данных, охватывающими разные домены и стили.ASSET [2] состоит из 2359 предложений из английской Википедии, спаренных с 10 упрощенными референсами. Используется официальный тестовый сплит (359 предложений) для оценки. Эти референсы были созданы краудворкерами, которым было дано задание использовать операции редактирования, такие как замена, разделение и удаление.MED-EASI [3] – это набор данных для упрощения коротких медицинских текстов, содержащий 1979 пар сложных (экспертных) – простых (неспециализированных). Каждый текст содержит одно или несколько предложений. В этом наборе данных упрощенные тексты составлены с использованием четырех типов операций: развертывание, замена, удаление и вставка. Используется выпущенный тестовый сплит (300 экземпляров) для оценки. В отличие от двух других наборов данных, упрощения в MED-EASI немного длиннее, чем сложные исходные тексты, из-за объяснения и разложения сложных медицинских терминов.NEWSELA [4] содержит 1130 длинных новостных статей, которые были профессионально переписаны в соответствии с четырьмя различными градуированными уровнями читабельности. Для наших бенчмаркинговых экспериментов мы выбираем тестовый набор Newsela-Manual [4]. Мы извлекаем все выровненные и частично выровненные пары предложений между сложным исходным предложением (уровень 0) и четырьмя упрощенными версиями статьи (уровни 1-4), оставляя только те предложения, для которых у нас есть референс для всех четырех уровней упрощения. Это приводит к 256 тестовым примерам. Использование этого небольшого подмножества данных Newsela обеспечивает высокое качество выравнивания на уровне предложений и захватывает важные операции редактирования, такие как разделение.Таблица 1. Описание используемых наборов данных.В таблице 1 TER (Translation Error Rate) – это метрика, используемая для оценки качества перевода. Она измеряет среднее количество редакционных правок, необходимых для преобразования переведенного текста (референсного текста) в исходный текст (источник).Чтобы побудить модели к упрощению предложений без дополнительной настройки, стоит использовать обучение в контексте (ОВК). ОВК – это техника промптов, которая использует небольшое количество примеров вход-выход для демонстрации задачи [1].Для того чтобы побудить модель к лучшему упрощению предложений, промпт будет содержать сочетание «Инструкция – Сложное предложение – Простое предложение». В ходе исследования был выявлен промпт, который позволяет моделям достичь лучших результатов в УП.Рисунок1. Лучший промпт.На рисунке 1 представлен промпт, который был написан краудворкерами в рамках работы над набором данных ASSET, в нем описывается целевая аудитория и операции, которыми модель может упростить предложение, N примеров упрощения сложных предложений, затем предложение, требующее упрощения, на выходе модель выдаёт упрощённое предложение.Чтобы оценить, насколько хорошо LLM могут выполнять УП, все выходы моделей оценивались с помощью автоматических метрик. Для измерения простоты сообщения использовалась метрика SARI – это холистическая метрика качества упрощения. Она вычисляет показатель F1 для n-грамм, добавленных, сохраненных и удаленных, по отношению к исходному (источнику) и референсным предложениям. Сохранение значения измерялось с помощью BERTScore [1], эта метрика вычисляет точность (precision). Так же проверяется эффективность «золотых» упрощений, оценивая доступные референсные предложения с использованием стратегии «оставь одно». То есть в случаях, когда доступно несколько референсов, случайным образом выбирается один и оценивается по сравнению с оставшимися референсами.Метод обучения важнее, чем размер. Таблица 2 представляет эффективность по SARI и BERTScore для лучших моделей. Масштабирование модели показало сильные преимущества в условиях обучения с несколькими примерами, однако наблюдаются многочисленные исключения из этого правила. Например, Flan-T5-large (770 миллионов параметров) постоянно достигает более высоких показателей SARI по ASSET, чем Flan-T5-xl (3 миллиарда параметров) и Flan-T5-xxl (11 миллиардов параметров). Тем временем можно увидеть, что стратегия обучения, такая как инструкционная настройка, помогают достичь больших улучшений, особенно для сохранения значения, измеряемого с помощью BERTScore.ASSET в данных в стиле Википедии Davinci-003 и GPT-3.5-Turbo от OpenAI значительно превосходят все другие протестированные модели по SARI. Поразительно, эти модели также превосходят золотые референсы, которые приближаются к MUSS.Тем временем для конкурентов с открытыми весами видно в таблице 2, что только небольшое количество моделей конкурентоспособны, а именно OPT-IML-Max-30b, Flan-T5-large и Flan-UL2, который показывает лучший баланс между простотой и сохранением значения по автоматическим метрикам.Таблица 2. Описание используемых наборов данных.MED-EASI для медицинских текстов наблюдается, что большинство моделей постоянно не сохраняют исходный смысл. Снижение сохранения значения, вероятно, можно объяснить тем, что модели известны тем, что производят неадекватные генерации в условиях вне домена [1]. Модели, которые действительно достигают разумного баланса как по SARI, так и по BERTScore, – это снова более мощные предложения OpenAI и модели Flan.NEWSELA Оценка моделей на профессионально написанных упрощениях из NEWSELA показывает, что даже лучшие LLM не могут соответствовать человеческой эффективности. Это заметно по четким зазорам около 20 баллов SARI и 14 баллов BERTScore между лучшими исполнителями и «золотыми» упрощениями. В этом наборе данных MUSS-wiki-mined остается сильным базовым уровнем, превосходя все LLM по обеим метрикам, в то время как Davinci-002, Flan-UL2 и Flan-T5-xxl показывают наилучшие результаты среди LLM.
Номер журнала Вестник науки №6 (87) том 3
Ссылка для цитирования:
Цыганов Д.Н. ОЦЕНКА ПРОИЗВОДИТЕЛЬНОСТИ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ В ЗАДАЧЕ УПРОЩЕНИЯ ПРЕДЛОЖЕНИЙ // Вестник науки №6 (87) том 3. С. 1889 - 1896. 2025 г. ISSN 2712-8849 // Электронный ресурс: https://www.вестник-науки.рф/article/24441 (дата обращения: 12.01.2026 г.)
Вестник науки © 2025. 16+