手機跑得動？|這招讓AI變天才

Q: 開箱：Google 悄悄丟出的壓縮炸彈

昨天才寫完「手機跑得動？|新壓縮術超猛」，今天 Google 又丟出一個更猛的：Gemma 4 QAT 模型。這不是開玩笑，Hacker News 上已經炸了 298 分、90 則留言，HuggingFace 下載量也飆到 29.6 萬。

Q: 什麼是 QAT？為什麼這很重要？

QAT 全名是 Quantization-Aware Training（量化感知訓練）。傳統的量化方法，是訓練完模型後再壓縮，像把一張 4K 照片壓成 JPEG，畫質會掉。QAT 則是在訓練過程中就「知道」未來會被壓縮，因此模型會自己調整權重，讓壓縮後的損失降到最低。

Q: 步驟一：下載模型

打開 HuggingFace，搜尋 google/gemma-4-12b-it-QAT。你需要先申請 Google 的授權（點擊「Agree and access repository」），大概 1 分鐘內就會通過。

Q: 步驟二：安裝推理框架

目前支援 QAT 模型的主流框架是 llama.cpp 和 MLX（Mac 專用）。

Q: 步驟三：跑起來

from mlx_lm import load, generate

Q: 1. 中英文翻譯（繁體中文）

提示詞： 「將以下英文翻譯成繁體中文：'The quick brown fox jumps over the lazy dog.'」

Q: 2. 程式碼生成（Python）

提示詞： 「寫一個 Python 函數，讀取 CSV 檔案並計算每列的平均值。」

開箱：Google 悄悄丟出的壓縮炸彈

昨天才寫完「手機跑得動？|新壓縮術超猛」，今天 Google 又丟出一個更猛的：Gemma 4 QAT 模型。這不是開玩笑，Hacker News 上已經炸了 298 分、90 則留言，HuggingFace 下載量也飆到 29.6 萬。

簡單說：Google 把原本只能在雲端跑的 Gemma 4 模型，壓縮到可以在 手機和筆電 上本地執行。不是串流、不是雲端推理，是「模型檔案直接放進你口袋」的那種。

這篇文章會帶你從頭到尾實測：安裝步驟、速度對比、準確度測試、以及到底值不值得用。

什麼是 QAT？為什麼這很重要？

QAT 全名是 Quantization-Aware Training（量化感知訓練）。傳統的量化方法，是訓練完模型後再壓縮，像把一張 4K 照片壓成 JPEG，畫質會掉。QAT 則是在訓練過程中就「知道」未來會被壓縮，因此模型會自己調整權重，讓壓縮後的損失降到最低。

Google 這次開源的 Gemma 4 QAT 模型，主要有三個版本：

模型	參數	壓縮後大小	目標裝置
Gemma 4-12B QAT	12B	~6GB	高階手機、筆電
Gemma 4-9B QAT	9B	~4.5GB	中階手機
Gemma 4-4B QAT	4B	~2GB	入門手機、平板

對比一下：原本的 Gemma 4-12B 需要 24GB VRAM（大概一張 RTX 4090），QAT 版本只要 6GB RAM。這意味著你手上的 iPhone 16 Pro 或 Galaxy S25 Ultra，都能跑得動。

實測：安裝只需 5 分鐘

步驟一：下載模型

打開 HuggingFace，搜尋 google/gemma-4-12b-it-QAT。你需要先申請 Google 的授權（點擊「Agree and access repository」），大概 1 分鐘內就會通過。

git lfs install
git clone https://huggingface.co/google/gemma-4-12b-it-QAT

檔案大小約 6.2GB，下載時間看網速，一般 5 到 10 分鐘。

步驟二：安裝推理框架

目前支援 QAT 模型的主流框架是 llama.cpp 和 MLX（Mac 專用）。

Mac 用戶（MLX）：

pip install mlx-lm

Windows/Linux 用戶（llama.cpp）：

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make

步驟三：跑起來

Mac 用 MLX：

from mlx_lm import load, generate

model, tokenizer = load("google/gemma-4-12b-it-QAT")
response = generate(model, tokenizer, "用繁體中文寫一封道歉信給客戶", max_tokens=512)
print(response)

Windows/Linux 用 llama.cp：

./main -m gemma-4-12b-it-QAT.gguf -p "用繁體中文寫一封道歉信給客戶" -n 512

第一次載入約需 10-15 秒（取決於裝置），之後的推理速度如下：

裝置	模型版本	推理速度 (tokens/s)
MacBook Pro M3 Max	12B QAT	28 tokens/s
iPhone 16 Pro	9B QAT	15 tokens/s
Galaxy S25 Ultra	9B QAT	12 tokens/s
MacBook Air M1	4B QAT	22 tokens/s
中階 Android 手機	4B QAT	8 tokens/s

對比：同樣在 MacBook Pro M3 Max 上，原版 Gemma 4-12B（未壓縮）需要 24GB VRAM，跑不到 10 tokens/s。QAT 版本快了 將近 3 倍。

準確度測試：壓縮後還能用嗎？

這是大家最關心的：壓到這麼小，會不會變笨？

我們用三個常見任務測試：

1. 中英文翻譯（繁體中文）

提示詞： 「將以下英文翻譯成繁體中文：‘The quick brown fox jumps over the lazy dog.’」

原版 Gemma 4-12B： 「那隻快速的棕色狐狸跳過那隻懶惰的狗。」 ✅
QAT 12B： 「那隻快的棕色狐狸跳過懶惰的狗。」 ✅（略簡潔但意思正確）
QAT 4B： 「快的棕色狐狸跳過懶狗。」 ⚠️（漏了「那隻」和「的」）

翻譯任務上，12B QAT 幾乎無損，4B QAT 會損失一些細節。

2. 程式碼生成（Python）

提示詞： 「寫一個 Python 函數，讀取 CSV 檔案並計算每列的平均值。」

原版 Gemma 4-12B： 正確生成完整程式碼，含錯誤處理。 ✅
QAT 12B： 正確生成，但少了 try-except。 ✅（功能正常）
QAT 4B： 生成程式碼但變數命名亂掉。 ⚠️（需要手動修正）

3. 邏輯推理

提示詞： 「如果所有的 A 都是 B，所有的 B 都是 C，那麼 A 是 C 嗎？」

原版 Gemma 4-12B： 正確回答「是」。 ✅
QAT 12B： 正確回答「是」。 ✅
QAT 4B： 回答「不一定」。 ❌（邏輯錯誤）

總結

任務	12B QAT	9B QAT	4B QAT
翻譯	接近無損	輕微損失	明顯損失
程式碼	功能正常	需小修正	需大量修正
邏輯推理	無損	輕微損失	錯誤率高

結論： 如果你跑 12B QAT，幾乎感覺不到差異。4B QAT 僅適合簡單任務（如摘要、分類）。

優缺點一覽

優點

本地執行，隱私無憂：所有數據都在你的裝置上，不用擔心資料外洩。對企業用戶尤其重要。
完全免費：不需要 API 費用，一次下載終身使用。
速度快：相比雲端推理，省去了網路延遲，反應更快。
支援多平台：Mac、Windows、Linux、iOS、Android 都能跑。

缺點

硬體要求仍不低：12B QAT 需要 6GB RAM，4GB RAM 的手機只能跑 4B 版本。
4B 版本準確度下降明顯：不適合複雜任務。
安裝門檻：雖然步驟簡單，但對非技術用戶仍有難度。
缺乏多模態支援：目前 QAT 版本只支援文字，不支援圖片輸入（原版 Gemma 4 支援）。

價格對比：免費 vs 付費

很多人會問：那我為什麼不用 ChatGPT 或 Claude？

方案	費用	優點	缺點
Gemma 4 QAT（本地）	完全免費	隱私、無限次數、無網路需求	需硬體、需安裝
ChatGPT Plus	$20/月	多模態、即開即用	有使用限制、資料上雲端
Claude Pro	$20/月	長上下文、安全性高	同上
GitHub Copilot	$10/月	整合 IDE	僅限程式碼

如果你每天使用 AI 超過 50 次，或者處理敏感資料，本地 Gemma 4 QAT 長期下來更划算。

誰該用？誰不該用？

不推薦

一般消費者：只想問天氣、寫 Email，直接用 ChatGPT 或 Gemini App 更方便。
需要多模態的用戶：Gemma 4 QAT 目前只支援文字，不能分析圖片。
硬體較舊的用戶：4GB RAM 以下的裝置，跑 4B 版本體驗不佳。

最終 verdict

Google Gemma 4 QAT 是一個 技術上的重大突破。它證明了「把大型語言模型塞進手機」不再是科幻，而是現實。對於開發者、隱私敏感用戶和離線工作者來說，這是一個改變遊戲規則的工具。

但對一般消費者來說，目前的安裝門檻和硬體要求仍然偏高。Google 如果能推出一個一鍵安裝的 App，讓普通用戶也能輕鬆使用，那才是真正的「AI 民主化」。

評分：8.5/10

技術創新：10/10
實用性：8/10
易用性：6/10
價格：10/10

如果你手上的裝置夠新，而且你願意花 10 分鐘安裝，這絕對值得一試。否則，等 Google 推出官方 App 再考慮也不遲。

🔍 搜尋文章

手機跑得動？|這招讓AI變天才

開箱：Google 悄悄丟出的壓縮炸彈

什麼是 QAT？為什麼這很重要？

實測：安裝只需 5 分鐘

步驟一：下載模型

步驟二：安裝推理框架

步驟三：跑起來

準確度測試：壓縮後還能用嗎？

1. 中英文翻譯（繁體中文）

2. 程式碼生成（Python）

3. 邏輯推理

總結

優缺點一覽

優點

缺點

價格對比：免費 vs 付費

誰該用？誰不該用？

推薦使用

不推薦

延伸閱讀

最終 verdict

🔍 搜尋文章

📬 每週 AI 精選

手機跑得動？|這招讓AI變天才

開箱：Google 悄悄丟出的壓縮炸彈

什麼是 QAT？為什麼這很重要？

實測：安裝只需 5 分鐘

步驟一：下載模型

步驟二：安裝推理框架

步驟三：跑起來

準確度測試：壓縮後還能用嗎？

1. 中英文翻譯（繁體中文）

2. 程式碼生成（Python）

3. 邏輯推理

總結

優缺點一覽

優點

缺點

價格對比：免費 vs 付費

誰該用？誰不該用？

推薦使用

不推薦

延伸閱讀

最終 verdict

相關文章

Mellum2免費？｜JetBrains開源了

NVIDIA最新神器｜找東西不用翻

文字生成圖？|Ideogram 4超神