Разработан метод сжатия больших языковых моделей без потерь в качестве
Российские исследователи разработали новый метод сжатия больших языковых моделей, который позволяет уменьшить их объем на 25-36% без дополнительного обучения и значительной потери в точности за счет использования новых математических подходов для уменьшения размеров нейросети.
Результаты исследования опубликованы в Findings of the Association for Computational Linguistics.
"Большие языковые модели, такие как ChatGPT и LLaMA, показывают впечатляющие результаты в генерации текста, переводе и других задачах, но их огромный размер делает их дорогими в использовании. Многие подобные системы невозможно или очень сложно запустить на одном графическом процессоре, и при этом их работа требует огромных вычислительных ресурсов", - говорится в исследовании.
Как отмечают исследователи из Института искусственного интеллекта и цифровых наук (Москва), это связано с тем, что большие языковые модели содержат в себе десятки и сотни миллиардов параметров, на расчет которых требуются сотни гигабайт памяти. Сейчас для снижения подобных требований ученые особым образом "сжимают" нейросеть, постепенно удаляя часть ее параметров и отслеживая то, как это меняет качество работы ИИ, что требует много времени.
Российские математики выяснили, что этот процесс можно существенным образом ускорить, не жертвуя качеством работы нейросети, при помощи созданного ими подхода, который исследователи назвали "методом Прокруста" в честь героя древнегреческих мифов, который "подгонял" размеры путников под свое ложе. В данном случае "подгонке" подвергаются так называемые веса - параметры нейросети, отражающие связи между ее нейронами.
Как объясняют исследователи, в рамках этого метода веса модели меняются таким образом, что они лучше поддаются сжатию с помощью структурированных матриц - математических конструкций, которые занимают гораздо меньше памяти. По словам ученых, данная процедура дообучения модели работает очень быстро и может применяться к уже существующим системам ИИ, в том числе к популярным большим языковым моделям.
Первые проверки работы этого подхода на открытых моделях OPT и LLaMA2 показали, что новый подход работает быстрее, чем уже существующие методы сжатия ИИ, и при этом он на 9-10% опережает их по точности и качеству работы уменьшенной большой языковой модели. Как надеются ученые, это ускорит внедрение данных систем ИИ в устройства с ограниченными вычислительными ресурсами и сделает ИИ более доступным в повседневной жизни.