Российские ученые из «Яндекса» вместе с коллегами из ведущих мировых университетов (НИУ ВШЭ, MIT, KAUST и ISTA) разработали новый метод сжатия больших языковых моделей (LLM), который позволяет уменьшить их размер без потери качества. Разработка под названием HIGGS позволит запускать мощные нейросети на обычных смартфонах и ноутбуках, открывая доступ к передовым технологиям широкому кругу пользователей, включая небольшие компании и независимых разработчиков.
Валерия Леонова
Редактор
Валерия Леонова
Редактор
Российские ученые из «Яндекса» вместе с коллегами из ведущих мировых университетов (НИУ ВШЭ, MIT, KAUST и ISTA) разработали новый метод сжатия больших языковых моделей (LLM), который позволяет уменьшить их размер без потери качества. Разработка под названием HIGGS позволит запускать мощные нейросети на обычных смартфонах и ноутбуках, открывая доступ к передовым технологиям широкому кругу пользователей, включая небольшие компании и независимых разработчиков.
Теперь сжатые версии опенсорсных моделей, таких как DeepSeek-R1 и Llama 4 Maverick, которые ранее требовали мощных серверов, можно тестировать и внедрять на мобильных устройствах. Метод HIGGS позволяет сжимать нейросети без использования дополнительных данных и сложной оптимизации параметров, улучшая баланс между качеством, размером и вычислительными требованиями, пишет Sostav.
Эксперименты показали, что HIGGS значительно превосходит другие методы квантизации, такие как NF4 и HQQ, при работе с популярными моделями Llama 3 и Qwen2.5. Разработчики уже сделали HIGGS доступным на Hugging Face и GitHub.
Напомним, ранее «Яндекс» внедрил в чат с Алисой мощную языковую модель нового поколения — YandexGPT 5 Pro. YandexGPT 5 Pro отвечает на запросы на уровне лучших мировых аналогов, а в некоторых типах задач превосходит их результаты. Представителям бизнеса она доступна на платформе Yandex Cloud.
Подписка на рассылку
Подпишитесь на рассылку, чтобы одним из первых быть в курсе новых событий