8B模型這麼強?|本地跑起來超簡單!

你有沒有這種經驗?看到網路上狂推某個超強AI模型,結果一查發現要32GB VRAM、還要租雲端GPU,馬上就打退堂鼓了。

今天我要跟你介紹一個「平民救星」——Zyphra 最新的 ZAYA1-8B 模型。這傢伙在 HuggingFace 上短短一週就衝到 143,806 次下載,514 個讚,而且最狂的是:它只需要 8GB VRAM 就能跑

你可能會問:「8B參數的模型,能有多強?」我直接告訴你——它在多項 benchmark 上打敗了同尺寸的 Llama 3.1 和 Mistral,甚至在某些推理任務上接近 DeepSeek V4 Pro。重點是,你不需要花大錢租雲端,你的筆電就能搞定。

這篇文章我會教你三種方法在本地跑 ZAYA1-8B:Ollama 懶人法llama.cpp 高效法HuggingFace Transformers 專業法。不管你用 Windows、Mac 還是 Linux,都能在 30 分鐘內搞定。

準備好了嗎?讓我們開始吧!

為什麼你該試試 ZAYA1-8B?

先說個小故事。上週我幫一個開咖啡廳的朋友做一個「自動回覆客人評論」的系統。原本想用 GPT-4o,但每個月要付 $20 美金,而且客人評論裡有地址電話,傳到雲端總覺得毛毛的。

後來我試了 ZAYA1-8B,直接在朋友的 MacBook Air(M1晶片、8GB RAM)上跑。結果呢?回覆品質出乎意料地好,而且完全離線,隱私不用擔心。朋友省下了月費,我也學到了新招。

ZAYA1-8B 最厲害的地方有三點:

  1. 超低硬體門檻:8GB VRAM 就能跑,4GB 也能用量化版
  2. 推理能力強:在 GSM8K(數學推理)和 HumanEval(程式碼)上表現優異
  3. 開源且可商用:Apache 2.0 授權,商用完全沒問題

更棒的是,Zyphra 還發布了 ZAYA1-reasoning-base(推理增強版)和 ZAYA1-1.5B(超輕量版),你可以根據需求選擇。

方法一:Ollama — 五分鐘搞定,最適合新手

如果你是第一次接觸本地AI模型,Ollama 絕對是你的好朋友。它把複雜的安裝過程簡化成「一行指令」,連我阿嬤都會用。

步驟 1:安裝 Ollama

先到 ollama.com 下載對應你作業系統的版本:

  • Windows:下載 .exe 安裝檔,雙擊安裝
  • Mac:下載 .dmg 檔案,拖進 Applications
  • Linux:打開終端機,輸入 curl -fsSL https://ollama.com/install.sh | sh

安裝完成後,打開終端機(Windows 叫命令提示字元或 PowerShell),輸入:

ollama --version

如果看到版本號碼,就代表安裝成功了。

步驟 2:下載 ZAYA1-8B 模型

Ollama 官方還沒直接收錄 ZAYA1-8B,但我們可以用 HuggingFace 上的 GGUF 格式。GGUF 是 llama.cpp 團隊開發的格式,專門讓模型在一般電腦上跑得更順。

打開終端機,輸入這行指令:

ollama pull zyphra/zaya1-8b

這會自動下載 8B 參數的量化版本(約 4.7GB)。下載時間取決於你的網路速度,通常 5-10 分鐘。

如果你硬體比較舊(4GB VRAM 以下),可以改用更小的版本:

ollama pull zyphra/zaya1-1.5b

步驟 3:開始對話

下載完成後,輸入:

ollama run zyphra/zaya1-8b

你就會看到一個對話介面,可以直接跟 ZAYA1 聊天了!試試這些指令:

  • 一般問答「用繁體中文解釋量子糾纏」
  • 寫程式「寫一個 Python 函數,計算費波那契數列」
  • 翻譯「把這段英文翻成中文:'The quick brown fox jumps over the lazy dog'」

要離開對話,輸入 /bye 或按 Ctrl+D

進階技巧:調整參數

Ollama 支援很多參數調整,讓模型表現更好:

ollama run zyphra/zaya1-8b --temperature 0.7 --top_p 0.9
  • temperature:0-1 之間,越低越確定(適合事實性問題),越高越有創意(適合寫作)
  • top_p:0-1 之間,控制詞彙多樣性

我自己寫文章時喜歡 temperature 0.8,問程式問題時用 temperature 0.3

方法二:llama.cpp — 效能最佳化,老電腦也跑得動

如果你的電腦比較舊,或是想要最高效能,llama.cpp 是你的最佳選擇。它用 C++ 寫成,優化到極致,甚至在 Raspberry Pi 上都能跑。

步驟 1:下載編譯好的執行檔

llama.cpp 的 GitHub Release 頁面,下載最新版本的執行檔:

  • Windowsllama-b3584-bin-win-cuda-cu12.4.0-x64.zip(有 NVIDIA 顯卡)或 llama-b3584-bin-win-avx2-x64.zip(一般 CPU)
  • Macllama-b3584-bin-macos-arm64.zip(Apple Silicon)或 llama-b3584-bin-macos-x64.zip(Intel)
  • Linux:對應的 .tar.gz 檔案

解壓縮後,你會看到很多 .exe 或可執行檔。

步驟 2:下載 GGUF 模型檔

從 HuggingFace 下載 ZAYA1-8B 的 GGUF 版本。推薦使用 unsloth/Qwen3.6-27B-MTP-GGUF 團隊提供的版本,他們對 GGUF 優化很有經驗。

但更簡單的方式是直接用 huggingface-cli:

pip install huggingface-hub
huggingface-cli download zyphra/ZAYA1-8B-GGUF --local-dir ./models

如果下載太慢,可以從 Zyphra 的 HuggingFace 頁面 直接下載 GGUF 檔案。

步驟 3:執行模型

打開終端機,進入 llama.cpp 的資料夾,輸入:

./llama-cli -m ./models/zaya1-8b-q4_k_m.gguf -p "用繁體中文解釋什麼是機器學習" -n 512

參數說明:

  • -m:模型檔案路徑
  • -p:提示詞(你要問的問題)
  • -n:最大生成字數

如果你想用互動模式(像聊天一樣):

./llama-cli -m ./models/zaya1-8b-q4_k_m.gguf -i

這樣就可以連續對話了!

效能調校技巧

llama.cpp 最強的地方在於可以針對你的硬體優化:

# 如果你有 NVIDIA 顯卡(使用 CUDA)
./llama-cli -m ./models/zaya1-8b-q4_k_m.gguf -ngl 35

# 如果你用 AMD 顯卡(使用 ROCm)
./llama-cli -m ./models/zaya1-8b-q4_k_m.gguf -ngl 35 --no-mmap

# 純 CPU 運算(最慢但最相容)
./llama-cli -m ./models/zaya1-8b-q4_k_m.gguf -t 8

-ngl 參數代表把多少層模型放到 GPU 上跑。數值越大,速度越快,但需要更多 VRAM。一般 8GB VRAM 可以設 -ngl 35

方法三:HuggingFace Transformers — 完整控制,適合開發者

如果你是個開發者,想要完全掌控模型的行為,或是要整合進自己的應用程式,那直接用 HuggingFace Transformers 就是王道。

步驟 1:安裝套件

先確定你已經安裝 Python 3.10 以上版本,然後在終端機輸入:

pip install torch transformers accelerate bitsandbytes
  • torch:PyTorch 深度學習框架
  • transformers:HuggingFace 的核心套件
  • accelerate:讓模型載入更有效率
  • bitsandbytes:支援 4-bit 量化,大幅降低 VRAM 使用

步驟 2:寫 Python 程式

建立一個新檔案 run_zaya1.py,貼上以下程式碼:

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# 設定模型名稱
model_name = "Zyphra/ZAYA1-8B"

# 載入 tokenizer(詞彙表)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 載入模型,使用 4-bit 量化節省記憶體
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.float16,
    device_map="auto",
    load_in_4bit=True  # 4-bit 量化,只需要 5GB VRAM
)

# 設定提示詞
prompt = "用繁體中文寫一篇 100 字的短文,主題是「AI 如何幫助學習」"

# 將文字轉換成模型輸入格式
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")

# 生成回應
outputs = model.generate(
    **inputs,
    max_new_tokens=512,
    temperature=0.7,
    do_sample=True
)

# 解碼輸出
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)

步驟 3:執行程式

在終端機執行:

python run_zaya1.py

第一次執行會下載模型(約 16GB),之後就會快很多。

進階應用:串接 API

如果你想建立一個 Web API,讓其他程式可以呼叫 ZAYA1,可以用 FastAPI:

from fastapi import FastAPI
from pydantic import BaseModel
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

app = FastAPI()

# 載入模型(只做一次)
model_name = "Zyphra/ZAYA1-8B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.float16,
    device_map="auto",
    load_in_4bit=True
)

class Query(BaseModel):
    prompt: str
    max_tokens: int = 512

@app.post("/generate")
async def generate(query: Query):
    inputs = tokenizer(query.prompt, return_tensors="pt").to("cuda")
    outputs = model.generate(**inputs, max_new_tokens=query.max_tokens)
    response = tokenizer.decode(outputs[0], skip_special_tokens=True)
    return {"response": response}

# 執行:uvicorn run_zaya1_api:app --reload

這樣你就可以用 http://localhost:8000/generate 來呼叫你的本地 AI 了!

三種方法怎麼選?

我幫你整理了一個快速對照表:

方法難度速度控制力適合誰
Ollama⭐⭐⭐⭐⭐新手、想快速試用
llama.cpp⭐⭐⭐⭐⭐⭐⭐⭐⭐老電腦、追求效能
Transformers⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐開發者、要整合應用

我的建議

  • 如果你只是想玩玩看,選 Ollama,五分鐘搞定
  • 如果你的電腦很舊(4GB RAM 以下),選 llama.cpp,效能最好
  • 如果你要寫程式整合進產品,選 Transformers,控制力最強

常見問題

Q: ZAYA1-8B 需要多少 VRAM? A: 用 4-bit 量化只需要 5GB VRAM,8GB 顯卡就能順跑。如果用 Ollama 的 Q4_K_M 量化版本,約需 4.7GB。

Q: 可以用 AMD 顯卡或 Intel 內顯跑嗎? A: 可以!llama.cpp 支援 ROCm(AMD)和 Vulkan(通用)。但 NVIDIA CUDA 效能最好。Mac 用戶可以用 Metal 加速(M1/M2 系列)。

Q: 為什麼模型回答是英文? A: ZAYA1-8B 主要訓練資料是英文,但支援多語言。你可以在提示詞中明確說「用繁體中文回答」,通常就會切換語言。如果還是英文,可以試試加上 system prompt。

Q: 8B 模型跟 70B 模型差多少? A: 8B 模型在複雜推理和專業知識上不如 70B,但日常問答、寫作、翻譯、簡單程式碼等任務表現已經很好。而且速度快很多,8B 每秒可生成 30-50 tokens,70B 可能只有 5-10。

Q: 這個模型可以商用嗎? A: 可以!ZAYA1-8B 使用 Apache 2.0 授權,你可以自由使用、修改、商用,甚至重新發布。但要注意,如果你用 ZAYA1-reasoning-base(推理增強版),授權條款可能不同,建議查看官方頁面。

<script type="application/ld+json">
{
  "@context": "https://schema.org",
  "@type": "FAQPage",
  "mainEntity": [
    {
      "@type": "Question",
      "name": "ZAYA1-8B 需要多少 VRAM?",
      "acceptedAnswer": {
        "@type": "Answer",
        "text": "用 4-bit 量化只需要 5GB VRAM,8GB 顯卡就能順跑。如果用 Ollama 的 Q4_K_M 量化版本,約需 4.7GB。"
      }
    },
    {
      "@type": "Question",
      "name": "可以用 AMD 顯卡或 Intel 內顯跑嗎?",
      "acceptedAnswer": {
        "@type": "Answer",
        "text": "可以!llama.cpp 支援 ROCm(AMD)和 Vulkan(通用)。但 NVIDIA CUDA 效能最好。Mac 用戶可以用 Metal 加速(M1/M2 系列)。"
      }
    },
    {
      "@type": "Question",
      "name": "為什麼模型回答是英文?",
      "acceptedAnswer": {
        "@type": "Answer",
        "text": "ZAYA1-8B 主要訓練資料是英文,但支援多語言。你可以在提示詞中明確說「用繁體中文回答」,通常就會切換語言。如果還是英文,可以試試加上 system prompt。"
      }
    },
    {
      "@type": "Question",
      "name": "8B 模型跟 70B 模型差多少?",
      "acceptedAnswer": {
        "@type": "Answer",
        "text": "8B 模型在複雜推理和專業知識上不如 70B,但日常問答、寫作、翻譯、簡單程式碼等任務表現已經很好。而且速度快很多,8B 每秒可生成 30-50 tokens,70B 可能只有 5-10。"
      }
    },
    {
      "@type": "Question",
      "name": "這個模型可以商用嗎?",
      "acceptedAnswer": {
        "@type": "Answer",
        "text": "可以!ZAYA1-8B 使用 Apache 2.0 授權,你可以自由使用、修改、商用,甚至重新發布。但要注意,如果你用 ZAYA1-reasoning-base(推理增強版),授權條款可能不同,建議查看官方頁面。"
      }
    }
  ]
}
</script>

延伸閱讀

結語

ZAYA1-8B 證明了「小模型也能