Теперь сжатые версии опенсорсных моделей, таких как DeepSeek-R1 и Llama 4 Maverick, которые ранее требовали мощных серверов, можно тестировать и внедрять на мобильных устройствах. Метод HIGGS позволяет сжимать нейросети без использования дополнительных данных и сложной оптимизации параметров, улучшая баланс между качеством, размером и вычислительными требованиями, пишет Sostav.
Эксперименты показали, что HIGGS значительно превосходит другие методы квантизации, такие как NF4 и HQQ, при работе с популярными моделями Llama 3 и Qwen2.5. Разработчики уже сделали HIGGS доступным на Hugging Face и GitHub.
Напомним, ранее «Яндекс» внедрил в чат с Алисой мощную языковую модель нового поколения — YandexGPT 5 Pro. YandexGPT 5 Pro отвечает на запросы на уровне лучших мировых аналогов, а в некоторых типах задач превосходит их результаты. Представителям бизнеса она доступна на платформе Yandex Cloud.







