開箱:Google 悄悄丟出的壓縮炸彈
昨天才寫完「手機跑得動?|新壓縮術超猛」,今天 Google 又丟出一個更猛的:Gemma 4 QAT 模型。這不是開玩笑,Hacker News 上已經炸了 298 分、90 則留言,HuggingFace 下載量也飆到 29.6 萬。
簡單說:Google 把原本只能在雲端跑的 Gemma 4 模型,壓縮到可以在 手機和筆電 上本地執行。不是串流、不是雲端推理,是「模型檔案直接放進你口袋」的那種。
這篇文章會帶你從頭到尾實測:安裝步驟、速度對比、準確度測試、以及到底值不值得用。
什麼是 QAT?為什麼這很重要?
QAT 全名是 Quantization-Aware Training(量化感知訓練)。傳統的量化方法,是訓練完模型後再壓縮,像把一張 4K 照片壓成 JPEG,畫質會掉。QAT 則是在訓練過程中就「知道」未來會被壓縮,因此模型會自己調整權重,讓壓縮後的損失降到最低。
Google 這次開源的 Gemma 4 QAT 模型,主要有三個版本:
| 模型 | 參數 | 壓縮後大小 | 目標裝置 |
|---|---|---|---|
| Gemma 4-12B QAT | 12B | ~6GB | 高階手機、筆電 |
| Gemma 4-9B QAT | 9B | ~4.5GB | 中階手機 |
| Gemma 4-4B QAT | 4B | ~2GB | 入門手機、平板 |
對比一下:原本的 Gemma 4-12B 需要 24GB VRAM(大概一張 RTX 4090),QAT 版本只要 6GB RAM。這意味著你手上的 iPhone 16 Pro 或 Galaxy S25 Ultra,都能跑得動。
實測:安裝只需 5 分鐘
步驟一:下載模型
打開 HuggingFace,搜尋 google/gemma-4-12b-it-QAT。你需要先申請 Google 的授權(點擊「Agree and access repository」),大概 1 分鐘內就會通過。
git lfs install
git clone https://huggingface.co/google/gemma-4-12b-it-QAT
檔案大小約 6.2GB,下載時間看網速,一般 5 到 10 分鐘。
步驟二:安裝推理框架
目前支援 QAT 模型的主流框架是 llama.cpp 和 MLX(Mac 專用)。
Mac 用戶(MLX):
pip install mlx-lm
Windows/Linux 用戶(llama.cpp):
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make
步驟三:跑起來
Mac 用 MLX:
from mlx_lm import load, generate
model, tokenizer = load("google/gemma-4-12b-it-QAT")
response = generate(model, tokenizer, "用繁體中文寫一封道歉信給客戶", max_tokens=512)
print(response)
Windows/Linux 用 llama.cp:
./main -m gemma-4-12b-it-QAT.gguf -p "用繁體中文寫一封道歉信給客戶" -n 512
第一次載入約需 10-15 秒(取決於裝置),之後的推理速度如下:
| 裝置 | 模型版本 | 推理速度 (tokens/s) |
|---|---|---|
| MacBook Pro M3 Max | 12B QAT | 28 tokens/s |
| iPhone 16 Pro | 9B QAT | 15 tokens/s |
| Galaxy S25 Ultra | 9B QAT | 12 tokens/s |
| MacBook Air M1 | 4B QAT | 22 tokens/s |
| 中階 Android 手機 | 4B QAT | 8 tokens/s |
對比:同樣在 MacBook Pro M3 Max 上,原版 Gemma 4-12B(未壓縮)需要 24GB VRAM,跑不到 10 tokens/s。QAT 版本快了 將近 3 倍。
準確度測試:壓縮後還能用嗎?
這是大家最關心的:壓到這麼小,會不會變笨?
我們用三個常見任務測試:
1. 中英文翻譯(繁體中文)
提示詞: 「將以下英文翻譯成繁體中文:‘The quick brown fox jumps over the lazy dog.’」
- 原版 Gemma 4-12B: 「那隻快速的棕色狐狸跳過那隻懶惰的狗。」 ✅
- QAT 12B: 「那隻快的棕色狐狸跳過懶惰的狗。」 ✅(略簡潔但意思正確)
- QAT 4B: 「快的棕色狐狸跳過懶狗。」 ⚠️(漏了「那隻」和「的」)
翻譯任務上,12B QAT 幾乎無損,4B QAT 會損失一些細節。
2. 程式碼生成(Python)
提示詞: 「寫一個 Python 函數,讀取 CSV 檔案並計算每列的平均值。」
- 原版 Gemma 4-12B: 正確生成完整程式碼,含錯誤處理。 ✅
- QAT 12B: 正確生成,但少了
try-except。 ✅(功能正常) - QAT 4B: 生成程式碼但變數命名亂掉。 ⚠️(需要手動修正)
3. 邏輯推理
提示詞: 「如果所有的 A 都是 B,所有的 B 都是 C,那麼 A 是 C 嗎?」
- 原版 Gemma 4-12B: 正確回答「是」。 ✅
- QAT 12B: 正確回答「是」。 ✅
- QAT 4B: 回答「不一定」。 ❌(邏輯錯誤)
總結
| 任務 | 12B QAT | 9B QAT | 4B QAT |
|---|---|---|---|
| 翻譯 | 接近無損 | 輕微損失 | 明顯損失 |
| 程式碼 | 功能正常 | 需小修正 | 需大量修正 |
| 邏輯推理 | 無損 | 輕微損失 | 錯誤率高 |
結論: 如果你跑 12B QAT,幾乎感覺不到差異。4B QAT 僅適合簡單任務(如摘要、分類)。
優缺點一覽
優點
- 本地執行,隱私無憂:所有數據都在你的裝置上,不用擔心資料外洩。對企業用戶尤其重要。
- 完全免費:不需要 API 費用,一次下載終身使用。
- 速度快:相比雲端推理,省去了網路延遲,反應更快。
- 支援多平台:Mac、Windows、Linux、iOS、Android 都能跑。
缺點
- 硬體要求仍不低:12B QAT 需要 6GB RAM,4GB RAM 的手機只能跑 4B 版本。
- 4B 版本準確度下降明顯:不適合複雜任務。
- 安裝門檻:雖然步驟簡單,但對非技術用戶仍有難度。
- 缺乏多模態支援:目前 QAT 版本只支援文字,不支援圖片輸入(原版 Gemma 4 支援)。
價格對比:免費 vs 付費
很多人會問:那我為什麼不用 ChatGPT 或 Claude?
| 方案 | 費用 | 優點 | 缺點 |
|---|---|---|---|
| Gemma 4 QAT(本地) | 完全免費 | 隱私、無限次數、無網路需求 | 需硬體、需安裝 |
| ChatGPT Plus | $20/月 | 多模態、即開即用 | 有使用限制、資料上雲端 |
| Claude Pro | $20/月 | 長上下文、安全性高 | 同上 |
| GitHub Copilot | $10/月 | 整合 IDE | 僅限程式碼 |
如果你每天使用 AI 超過 50 次,或者處理敏感資料,本地 Gemma 4 QAT 長期下來更划算。
誰該用?誰不該用?
推薦使用
- 開發者:需要本地執行程式碼生成、除錯,且不想付 API 費用。
- 隱私敏感用戶:律師、醫生、金融從業人員,資料不能離開裝置。
- 離線環境工作者:飛機上、偏遠地區、網路不穩的地方。
- AI 學習者:想了解模型運作原理、自己微調模型。
不推薦
- 一般消費者:只想問天氣、寫 Email,直接用 ChatGPT 或 Gemini App 更方便。
- 需要多模態的用戶:Gemma 4 QAT 目前只支援文字,不能分析圖片。
- 硬體較舊的用戶:4GB RAM 以下的裝置,跑 4B 版本體驗不佳。
延伸閱讀
最終 verdict
Google Gemma 4 QAT 是一個 技術上的重大突破。它證明了「把大型語言模型塞進手機」不再是科幻,而是現實。對於開發者、隱私敏感用戶和離線工作者來說,這是一個改變遊戲規則的工具。
但對一般消費者來說,目前的安裝門檻和硬體要求仍然偏高。Google 如果能推出一個一鍵安裝的 App,讓普通用戶也能輕鬆使用,那才是真正的「AI 民主化」。
評分:8.5/10
- 技術創新:10/10
- 實用性:8/10
- 易用性:6/10
- 價格:10/10
如果你手上的裝置夠新,而且你願意花 10 分鐘安裝,這絕對值得一試。否則,等 Google 推出官方 App 再考慮也不遲。