Большие языковые модели теперь не требуют мощных серверов
Лаборатория исследований искусственного интеллекта Yandex Research совместно с ведущими научно-технологическими вузами разработала метод быстрого сжатия больших языковых моделей (LLM) без потери качества. Теперь для работы с моделями достаточно смартфона или ноутбука и не нужно использовать дорогие серверы и мощные GPU.
Метод позволяет быстро тестировать и внедрять новые решения на основе нейросетей, экономить время и деньги на разработку. Это делает LLM доступнее не только для крупных, но и для небольших компаний, некоммерческих лабораторий и институтов, индивидуальных разработчиков и исследователей.
Ранее для запуска языковой модели на смартфоне или ноутбуке требовалось провести ее квантизацию на дорогостоящем сервере, что занимало несколько недель. Теперь квантизацию можно выполнить прямо на телефоне или ноутбуке за считанные минуты.
Сегодня сложность в использовании больших языковых моделей заключается в том, что они требуют значительных вычислительных ресурсов. Это касается и опенсорс-моделей. Например, одна из них, популярная DeepSeek-R1, не помещается даже на дорогостоящих серверах, предназначенных для работы с искусственным интеллектом и машинным обучением. Это означает, что использовать большие модели может только ограниченный круг компаний, даже если сама модель находится в открытом доступе.
Новый метод позволяет уменьшить размер модели, сохранив ее качество, и запустить на более доступных устройствах. Например, с помощью этого метода можно сжимать даже такие большие модели, как DeepSeek-R1 на 671 млрд параметров и Llama 4 Maverick на 400 млрд параметров, которые до сих пор удавалось квантовать только самыми простыми методами со значительной потерей в качестве.
Новый способ квантизации дает больше возможностей для использования LLM в различных областях, особенно в тех, где ресурсы ограничены, — например, в образовании или социальной сфере. Теперь стартапы и независимые разработчики могут использовать сжатые модели для создания инновационных продуктов и сервисов, не тратя деньги на дорогое оборудование.
Метод квантизации, разработанный учеными, называется HIGGS (от англ. Hadamard Incoherence with Gaussian MSE-optimal GridS). Он позволяет сжимать нейросети без использования дополнительных данных и без вычислительно сложной оптимизации параметров. Это особенно полезно в ситуациях, когда недостаточно подходящих данных для дообучения модели. Метод обеспечивает баланс между качеством, размером модели и сложностью квантизации, что позволяет использовать модели на самых разных устройствах.
Метод уже проверили на популярных моделях Llama 3, Llama 4 и Qwen 2.5. Эксперименты показали, что HIGGS — это лучший способ квантизации по соотношению качества и размера модели среди всех существующих методов квантизации без использования данных, в том числе GPTQ (GPT Quantization) и AWQ (Activation-Aware Quantization).
В разработке метода участвовали ученые из НИУ ВШЭ, Массачусетского технологического института (MIT), Австрийского института науки и технологий (ISTA) и Научно-технологического университета имени короля Абдаллы (KAUST, Саудовская Аравия). Метод HIGGS уже доступен разработчикам и исследователям на Hugging Face и GitHub.