Разработан метод быстрого "сжатия" аналогов ChatGPT
Исследователи из России и США, Австрии и Саудовской Аравии разработали подход, позволяющий быстро квантизировать - особым образом сжимать - большие языковые модели, что позволит использовать их не только на серверах, но и на телефонах и прочих устройствах с ограниченным объемом памяти.
Об этом сообщила пресс-служба "Яндекс образования".
"За последние несколько лет благодаря подобным оптимизациям средняя цена использования LLM заметно сократилась - примерно в четыре раза. Наш метод квантизации простой и эффективный, что делает его удобным для адаптации моделей под разные устройства и задачи. Это особенно полезно для небольших компаний и индивидуальных разработчиков, которые хотят использовать большие языковые модели, но не имеют доступа к дорогостоящему оборудованию", - сообщил ТАСС преподаватель Школы анализа данных "Яндекса" Андрей Панферов.
Как отмечают Панферов и исследователи, за последние несколько лет было создано большое число систем ИИ на базе больших языковых моделей - особого класса нейросетей, для тренировки которых используются огромные объемы данных. В их число, помимо ChatGPT, входят открытые алгоритмы, в том числе востребованная система ИИ DeepSeek-R1, нейросети из семейств LLаMA и Qwen, а также различные разработки российских ученых.
Сложность в использовании больших языковых моделей заключается в том, что они требуют значительных вычислительных ресурсов и объемов памяти. К примеру, DeepSeek-R1 сложно запустить даже на дорогостоящих серверах, предназначенных для работы с искусственным интеллектом и машинным обучением. Это означает, что использовать большие модели может только ограниченный круг компаний, даже если сама модель находится в открытом доступе.
Парфенов и исследователи из Австрии, США, и Саудовской Аравии разработали алгоритм HIGGS, который позволяет одновременно уменьшать размеры больших языковых моделей и при этом сохранять высокое качество их работы. Ключевой его особенностью является то, что он позволяет сжимать нейросети без использования дополнительных данных и без вычислительно сложной оптимизации параметров. Это особенно полезно в ситуациях, когда недостаточно подходящих данных для дообучения модели.
Первые проверки этого подхода на популярных моделях Llama 3 и Qwen2.5 показали, что разработка российских и зарубежных исследователей превосходит все популярные методы квантизации, не требующие использования данных. "Яндекс" уже сам применяет новый метод для прототипирования продуктов, причем для запуска и работы HIGGS не требуются дорогостоящие сервера и недели машинного времени - теперь квантизацию можно выполнить прямо на телефоне или ноутбуке. Это значительно ускорит разработку и внедрение больших языковых моделей, подытожили ученые.