Совсем недавно для работы с 26-миллиардной нейросетью требовался мощный дата-центр, но с появлением Google Gemma 4 26B-A4B все изменилось. Эта модель использует архитектуру mixture-of-experts, где лишь 8 из 128 экспертов активны при обработке токенов, что позволяет экономить ресурсы. На MacBook Pro с 48 ГБ ОЗУ она демонстрирует скорость около 51 токена в секунду, а качество сопоставимо с более тяжелыми моделями, такими как Qwen 3.5. LM Studio 0.4.0 облегчает локальный запуск моделей, предлагая консольные утилиты и фоновый демон llmster. Теперь модели можно запускать из терминала, что удобно для разработчиков. Выбор между различными версиями Gemma 4 позволяет адаптировать нейросеть под различные устройства. Эта модель открывает новые горизонты для локального использования ИИ, не требуя громоздких серверов, и подходит для работы с большими объемами данных.