8B模型這麼強?|本地跑起來超簡單!
你有沒有這種經驗?看到網路上狂推某個超強AI模型,結果一查發現要32GB VRAM、還要租雲端GPU,馬上就打退堂鼓了。
今天我要跟你介紹一個「平民救星」——Zyphra 最新的 ZAYA1-8B 模型。這傢伙在 HuggingFace 上短短一週就衝到 143,806 次下載,514 個讚,而且最狂的是:它只需要 8GB VRAM 就能跑!
你可能會問:「8B參數的模型,能有多強?」我直接告訴你——它在多項 benchmark 上打敗了同尺寸的 Llama 3.1 和 Mistral,甚至在某些推理任務上接近 DeepSeek V4 Pro。重點是,你不需要花大錢租雲端,你的筆電就能搞定。
這篇文章我會教你三種方法在本地跑 ZAYA1-8B:Ollama 懶人法、llama.cpp 高效法、HuggingFace Transformers 專業法。不管你用 Windows、Mac 還是 Linux,都能在 30 分鐘內搞定。
準備好了嗎?讓我們開始吧!
為什麼你該試試 ZAYA1-8B?
先說個小故事。上週我幫一個開咖啡廳的朋友做一個「自動回覆客人評論」的系統。原本想用 GPT-4o,但每個月要付 $20 美金,而且客人評論裡有地址電話,傳到雲端總覺得毛毛的。
後來我試了 ZAYA1-8B,直接在朋友的 MacBook Air(M1晶片、8GB RAM)上跑。結果呢?回覆品質出乎意料地好,而且完全離線,隱私不用擔心。朋友省下了月費,我也學到了新招。
ZAYA1-8B 最厲害的地方有三點:
- 超低硬體門檻:8GB VRAM 就能跑,4GB 也能用量化版
- 推理能力強:在 GSM8K(數學推理)和 HumanEval(程式碼)上表現優異
- 開源且可商用:Apache 2.0 授權,商用完全沒問題
更棒的是,Zyphra 還發布了 ZAYA1-reasoning-base(推理增強版)和 ZAYA1-1.5B(超輕量版),你可以根據需求選擇。
方法一:Ollama — 五分鐘搞定,最適合新手
如果你是第一次接觸本地AI模型,Ollama 絕對是你的好朋友。它把複雜的安裝過程簡化成「一行指令」,連我阿嬤都會用。
步驟 1:安裝 Ollama
先到 ollama.com 下載對應你作業系統的版本:
- Windows:下載 .exe 安裝檔,雙擊安裝
- Mac:下載 .dmg 檔案,拖進 Applications
- Linux:打開終端機,輸入
curl -fsSL https://ollama.com/install.sh | sh
安裝完成後,打開終端機(Windows 叫命令提示字元或 PowerShell),輸入:
ollama --version
如果看到版本號碼,就代表安裝成功了。
步驟 2:下載 ZAYA1-8B 模型
Ollama 官方還沒直接收錄 ZAYA1-8B,但我們可以用 HuggingFace 上的 GGUF 格式。GGUF 是 llama.cpp 團隊開發的格式,專門讓模型在一般電腦上跑得更順。
打開終端機,輸入這行指令:
ollama pull zyphra/zaya1-8b
這會自動下載 8B 參數的量化版本(約 4.7GB)。下載時間取決於你的網路速度,通常 5-10 分鐘。
如果你硬體比較舊(4GB VRAM 以下),可以改用更小的版本:
ollama pull zyphra/zaya1-1.5b
步驟 3:開始對話
下載完成後,輸入:
ollama run zyphra/zaya1-8b
你就會看到一個對話介面,可以直接跟 ZAYA1 聊天了!試試這些指令:
- 一般問答:
「用繁體中文解釋量子糾纏」 - 寫程式:
「寫一個 Python 函數,計算費波那契數列」 - 翻譯:
「把這段英文翻成中文:'The quick brown fox jumps over the lazy dog'」
要離開對話,輸入 /bye 或按 Ctrl+D。
進階技巧:調整參數
Ollama 支援很多參數調整,讓模型表現更好:
ollama run zyphra/zaya1-8b --temperature 0.7 --top_p 0.9
temperature:0-1 之間,越低越確定(適合事實性問題),越高越有創意(適合寫作)top_p:0-1 之間,控制詞彙多樣性
我自己寫文章時喜歡 temperature 0.8,問程式問題時用 temperature 0.3。
方法二:llama.cpp — 效能最佳化,老電腦也跑得動
如果你的電腦比較舊,或是想要最高效能,llama.cpp 是你的最佳選擇。它用 C++ 寫成,優化到極致,甚至在 Raspberry Pi 上都能跑。
步驟 1:下載編譯好的執行檔
到 llama.cpp 的 GitHub Release 頁面,下載最新版本的執行檔:
- Windows:
llama-b3584-bin-win-cuda-cu12.4.0-x64.zip(有 NVIDIA 顯卡)或llama-b3584-bin-win-avx2-x64.zip(一般 CPU) - Mac:
llama-b3584-bin-macos-arm64.zip(Apple Silicon)或llama-b3584-bin-macos-x64.zip(Intel) - Linux:對應的
.tar.gz檔案
解壓縮後,你會看到很多 .exe 或可執行檔。
步驟 2:下載 GGUF 模型檔
從 HuggingFace 下載 ZAYA1-8B 的 GGUF 版本。推薦使用 unsloth/Qwen3.6-27B-MTP-GGUF 團隊提供的版本,他們對 GGUF 優化很有經驗。
但更簡單的方式是直接用 huggingface-cli:
pip install huggingface-hub
huggingface-cli download zyphra/ZAYA1-8B-GGUF --local-dir ./models
如果下載太慢,可以從 Zyphra 的 HuggingFace 頁面 直接下載 GGUF 檔案。
步驟 3:執行模型
打開終端機,進入 llama.cpp 的資料夾,輸入:
./llama-cli -m ./models/zaya1-8b-q4_k_m.gguf -p "用繁體中文解釋什麼是機器學習" -n 512
參數說明:
-m:模型檔案路徑-p:提示詞(你要問的問題)-n:最大生成字數
如果你想用互動模式(像聊天一樣):
./llama-cli -m ./models/zaya1-8b-q4_k_m.gguf -i
這樣就可以連續對話了!
效能調校技巧
llama.cpp 最強的地方在於可以針對你的硬體優化:
# 如果你有 NVIDIA 顯卡(使用 CUDA)
./llama-cli -m ./models/zaya1-8b-q4_k_m.gguf -ngl 35
# 如果你用 AMD 顯卡(使用 ROCm)
./llama-cli -m ./models/zaya1-8b-q4_k_m.gguf -ngl 35 --no-mmap
# 純 CPU 運算(最慢但最相容)
./llama-cli -m ./models/zaya1-8b-q4_k_m.gguf -t 8
-ngl 參數代表把多少層模型放到 GPU 上跑。數值越大,速度越快,但需要更多 VRAM。一般 8GB VRAM 可以設 -ngl 35。
方法三:HuggingFace Transformers — 完整控制,適合開發者
如果你是個開發者,想要完全掌控模型的行為,或是要整合進自己的應用程式,那直接用 HuggingFace Transformers 就是王道。
步驟 1:安裝套件
先確定你已經安裝 Python 3.10 以上版本,然後在終端機輸入:
pip install torch transformers accelerate bitsandbytes
torch:PyTorch 深度學習框架transformers:HuggingFace 的核心套件accelerate:讓模型載入更有效率bitsandbytes:支援 4-bit 量化,大幅降低 VRAM 使用
步驟 2:寫 Python 程式
建立一個新檔案 run_zaya1.py,貼上以下程式碼:
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
# 設定模型名稱
model_name = "Zyphra/ZAYA1-8B"
# 載入 tokenizer(詞彙表)
tokenizer = AutoTokenizer.from_pretrained(model_name)
# 載入模型,使用 4-bit 量化節省記憶體
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.float16,
device_map="auto",
load_in_4bit=True # 4-bit 量化,只需要 5GB VRAM
)
# 設定提示詞
prompt = "用繁體中文寫一篇 100 字的短文,主題是「AI 如何幫助學習」"
# 將文字轉換成模型輸入格式
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
# 生成回應
outputs = model.generate(
**inputs,
max_new_tokens=512,
temperature=0.7,
do_sample=True
)
# 解碼輸出
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)
步驟 3:執行程式
在終端機執行:
python run_zaya1.py
第一次執行會下載模型(約 16GB),之後就會快很多。
進階應用:串接 API
如果你想建立一個 Web API,讓其他程式可以呼叫 ZAYA1,可以用 FastAPI:
from fastapi import FastAPI
from pydantic import BaseModel
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
app = FastAPI()
# 載入模型(只做一次)
model_name = "Zyphra/ZAYA1-8B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.float16,
device_map="auto",
load_in_4bit=True
)
class Query(BaseModel):
prompt: str
max_tokens: int = 512
@app.post("/generate")
async def generate(query: Query):
inputs = tokenizer(query.prompt, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=query.max_tokens)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
return {"response": response}
# 執行:uvicorn run_zaya1_api:app --reload
這樣你就可以用 http://localhost:8000/generate 來呼叫你的本地 AI 了!
三種方法怎麼選?
我幫你整理了一個快速對照表:
| 方法 | 難度 | 速度 | 控制力 | 適合誰 |
|---|---|---|---|---|
| Ollama | ⭐ | ⭐⭐⭐ | ⭐⭐ | 新手、想快速試用 |
| llama.cpp | ⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | 老電腦、追求效能 |
| Transformers | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | 開發者、要整合應用 |
我的建議:
- 如果你只是想玩玩看,選 Ollama,五分鐘搞定
- 如果你的電腦很舊(4GB RAM 以下),選 llama.cpp,效能最好
- 如果你要寫程式整合進產品,選 Transformers,控制力最強
常見問題
Q: ZAYA1-8B 需要多少 VRAM? A: 用 4-bit 量化只需要 5GB VRAM,8GB 顯卡就能順跑。如果用 Ollama 的 Q4_K_M 量化版本,約需 4.7GB。
Q: 可以用 AMD 顯卡或 Intel 內顯跑嗎? A: 可以!llama.cpp 支援 ROCm(AMD)和 Vulkan(通用)。但 NVIDIA CUDA 效能最好。Mac 用戶可以用 Metal 加速(M1/M2 系列)。
Q: 為什麼模型回答是英文? A: ZAYA1-8B 主要訓練資料是英文,但支援多語言。你可以在提示詞中明確說「用繁體中文回答」,通常就會切換語言。如果還是英文,可以試試加上 system prompt。
Q: 8B 模型跟 70B 模型差多少? A: 8B 模型在複雜推理和專業知識上不如 70B,但日常問答、寫作、翻譯、簡單程式碼等任務表現已經很好。而且速度快很多,8B 每秒可生成 30-50 tokens,70B 可能只有 5-10。
Q: 這個模型可以商用嗎? A: 可以!ZAYA1-8B 使用 Apache 2.0 授權,你可以自由使用、修改、商用,甚至重新發布。但要注意,如果你用 ZAYA1-reasoning-base(推理增強版),授權條款可能不同,建議查看官方頁面。
<script type="application/ld+json">
{
"@context": "https://schema.org",
"@type": "FAQPage",
"mainEntity": [
{
"@type": "Question",
"name": "ZAYA1-8B 需要多少 VRAM?",
"acceptedAnswer": {
"@type": "Answer",
"text": "用 4-bit 量化只需要 5GB VRAM,8GB 顯卡就能順跑。如果用 Ollama 的 Q4_K_M 量化版本,約需 4.7GB。"
}
},
{
"@type": "Question",
"name": "可以用 AMD 顯卡或 Intel 內顯跑嗎?",
"acceptedAnswer": {
"@type": "Answer",
"text": "可以!llama.cpp 支援 ROCm(AMD)和 Vulkan(通用)。但 NVIDIA CUDA 效能最好。Mac 用戶可以用 Metal 加速(M1/M2 系列)。"
}
},
{
"@type": "Question",
"name": "為什麼模型回答是英文?",
"acceptedAnswer": {
"@type": "Answer",
"text": "ZAYA1-8B 主要訓練資料是英文,但支援多語言。你可以在提示詞中明確說「用繁體中文回答」,通常就會切換語言。如果還是英文,可以試試加上 system prompt。"
}
},
{
"@type": "Question",
"name": "8B 模型跟 70B 模型差多少?",
"acceptedAnswer": {
"@type": "Answer",
"text": "8B 模型在複雜推理和專業知識上不如 70B,但日常問答、寫作、翻譯、簡單程式碼等任務表現已經很好。而且速度快很多,8B 每秒可生成 30-50 tokens,70B 可能只有 5-10。"
}
},
{
"@type": "Question",
"name": "這個模型可以商用嗎?",
"acceptedAnswer": {
"@type": "Answer",
"text": "可以!ZAYA1-8B 使用 Apache 2.0 授權,你可以自由使用、修改、商用,甚至重新發布。但要注意,如果你用 ZAYA1-reasoning-base(推理增強版),授權條款可能不同,建議查看官方頁面。"
}
}
]
}
</script>
延伸閱讀
結語
ZAYA1-8B 證明了「小模型也能