90%的人不知道！|Google開源模型自己跑

你每花$10美金在ChatGPT API上，其實有$7是付給雲端運算和利潤，而不是模型本身的智慧。Google最近開源的Gemma 4 31B模型，讓這件事徹底改變——你可以在自己的電腦上，用一張消費級顯卡，跑出接近GPT-4等級的AI助手，而且完全免費、資料不外洩。

這不是什麼遙遠的未來科技。今天這篇教學，我會帶你從零開始，一步步把Gemma 4 31B安裝到你的電腦上，讓它變成你的私人AI助理。你不需要是工程師，不需要懂Python，只需要跟著步驟做。

為什麼你該自己跑Gemma 4？

你可能會問：「我直接用ChatGPT或Claude不就好了？為什麼要這麼麻煩？」

這問到了核心問題。自己部署開源模型有三大不可取代的優勢：

第一，隱私。 當你把公司機密、客戶資料、個人醫療資訊丟進ChatGPT時，這些資料都會上傳到OpenAI的伺服器。很多企業因此明令禁止員工使用AI。但如果你在自己的電腦上跑模型，所有資料都留在本地，沒有任何第三方能看到。

第二，成本。 ChatGPT Pro一個月要$200美元。就算你用API按量計費，重度使用者一個月也能輕鬆花掉$100美元以上。而Gemma 4 31B只要你的電腦開機就能無限使用，電費一個月可能不到$5美元。

第三，自訂。 你可以完全控制模型的行為——讓它記住你的寫作風格、遵守特定的回覆格式、甚至禁止它討論某些話題。這些在雲端服務中要嘛做不到，要嘛需要額外付費。

但你可能又會想：「31B參數的模型，我的破電腦跑得動嗎？」

答案是：可以，只要你有一張8GB以上VRAM的顯示卡。 如果你用的是RTX 3060、RTX 4060或更高階的顯卡，恭喜你，完全沒問題。即使是筆記型電腦的RTX 3050，搭配量化版本也能順暢運行。

第一步：下載工具——Ollama是你的好朋友

在開始之前，我們需要一個能讓模型在本地運行的框架。市面上有很多選擇，但對初學者來說，Ollama是最友善的。

Ollama就像一個「AI模型的App Store」——你只要下載它，然後用一行指令就能下載並運行任何開源模型。

下載步驟：

打開瀏覽器，前往 ollama.com
點擊大大的「Download」按鈕
選擇你的作業系統（Windows、macOS、Linux都可以）
下載完成後，雙擊安裝檔，一路按「下一步」就安裝好了

安裝完成後，你可以打開命令提示字元（Windows按 Win+R，輸入 cmd 並按Enter）或終端機（macOS），輸入以下指令確認安裝成功：

ollama --version

如果看到類似 ollama version 0.1.39 的輸出，代表安裝成功。

第二步：下載並運行Gemma 4 31B

現在到了最關鍵的步驟。Ollama讓這件事簡單到不可思議。

打開你的終端機，輸入這一行指令：

ollama run gemma4:31b-it-assistant

就這麼簡單。Ollama會自動從HuggingFace下載Google官方釋出的Gemma 4 31B模型。下載大小約為18GB（因為使用了4-bit量化，將模型從62GB壓縮到可管理的尺寸），所以需要一點時間，取決於你的網路速度。

下載完成後，你會看到一個對話提示，可以直接開始跟模型聊天了！

試試這些指令：

「幫我寫一封給客戶的道歉信，語氣誠懇但專業」
「解釋一下什麼是區塊鏈，用國中生能懂的方式」
「把這段繁體中文翻成日文：今天天氣真好，我們去野餐吧」

你會發現，Gemma 4 31B的回覆品質令人驚豔。雖然參數只有GPT-4的十分之一，但在日常對話、翻譯、寫作等任務上，表現已經非常接近。

第三步：讓模型更懂你——自訂系統提示

開箱即用的Gemma 4已經很強，但你可以讓它更符合你的需求。Ollama支援Modelfile，讓你自訂模型的行為。

舉例來說，如果你希望模型永遠用繁體中文、口語化、像朋友一樣聊天，可以這樣做：

在你的文件夾中建立一個文字檔案，命名為 Modelfile（沒有副檔名）
在裡面寫入以下內容：

FROM gemma4:31b-it-assistant

SYSTEM """你是一位親切的朋友，擅長用輕鬆的口吻解釋複雜概念。
你永遠使用繁體中文（台灣用語）回答，避免任何簡體字或香港用語。
你的回覆要簡潔、有溫度，偶爾可以加一點幽默。"""

在終端機中，切換到這個檔案所在的目錄，然後輸入：

ollama create my-gemma -f Modelfile

之後你就可以用自訂模型了：

ollama run my-gemma

從現在開始，這個模型會完全按照你的設定來回答。你可以根據不同用途建立多個版本——一個寫作助手、一個程式除錯員、一個英文家教——每個都有專屬的系統提示。

第四步：用網頁介面更舒服地聊天

終端機打字雖然酷，但久了會累。Ollama提供了API，讓你可以用圖形化介面跟模型互動。

一個簡單又好用的方案是Open WebUI。安裝方式如下：

首先確保你已經安裝了Docker（到 docker.com 下載安裝）
打開終端機，輸入：

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

打開瀏覽器，前往 http://localhost:3000
註冊一個帳號（資料存在本地，不用擔心隱私）
在設定中選擇模型為 my-gemma（或 gemma4:31b-it-assistant）

現在你有一個媲美ChatGPT的網頁介面，背後跑的是你自己的私人AI模型。上傳檔案、複製貼上程式碼、調整溫度參數——所有功能一應俱全。

實際效能測試：它能做什麼？

我用Gemma 4 31B跑了幾個真實場景，以下是結果：

場景一：商業郵件撰寫

提示：「寫一封給供應商的郵件，通知他們交貨日期延後兩週，因為我們的海運貨櫃延誤了」

模型在3秒內生成了一封語氣專業、結構完整的郵件。開頭先道歉，然後清楚說明原因，最後提供兩個解決方案讓供應商選擇。完全可以直接使用，不需要修改。

場景二：Python程式除錯

提示：「我的Python程式出現 ‘IndexError: list index out of range’，這是我的程式碼…」

模型不僅指出了錯誤發生的行號，還解釋了為什麼會發生（因為迴圈超出了列表長度），並提供了修正後的程式碼。對於一個31B模型來說，這個推理能力令人印象深刻。

場景三：長篇文件摘要 我丟了一份10頁的PDF文件（約5000字）進去。Gemma 4 31B在約15秒內生成了300字的摘要，抓住了所有重點，而且沒有遺漏關鍵數據。比起GPT-4o的8秒略慢，但結果品質相當。

硬體需求參考：

顯卡：RTX 4060 12GB → 流暢運行，生成速度約每秒25個token
顯卡：RTX 3060 8GB → 可運行，速度約每秒15個token
純CPU（Apple M1 16GB）：可運行，速度約每秒3個token（適合不趕時間的任務）
純CPU（Intel i7 16GB RAM）：勉強可運行，建議使用更小的量化版本

常見問題

Q: 我的顯卡只有6GB VRAM，跑得動嗎？ A: 標準的4-bit量化版本需要約8GB VRAM。如果你的顯卡只有6GB，可以改用更小的量化版本，例如 gemma4:9b-it（9B參數版本，約5GB VRAM需求），或是使用CPU模式（速度較慢但可用）。

Q: 模型是英文的，中文表現好嗎？ A: Gemma 4 31B在多語言能力上有顯著提升，繁體中文的表現相當好。不過如果你主要用中文，建議在系統提示中明確指定「使用繁體中文」，並可以考慮混合使用其他中文優化模型如Qwen系列。

Q: 下載到一半中斷了怎麼辦？ A: 重新執行 ollama run gemma4:31b-it-assistant，Ollama會自動從中斷點繼續下載，不會從頭開始。

Q: 這個模型可以商用嗎？ A: Gemma 4使用Google的Gemma授權條款，允許大部分商業使用。但如果你要整合到自己的產品中，建議閱讀完整的授權條款確認細節。

Q: 跟ChatGPT比起來，哪個更強？ A: 在一般對話、寫作、翻譯任務上，Gemma 4 31B已經非常接近GPT-4。但在複雜推理、程式碼生成、長上下文處理上，GPT-4仍有優勢。不過Gemma 4完全免費且資料不外洩，對隱私敏感的場景來說是更好的選擇。

總結：你現在可以做的事

恭喜你！你已經學會了如何在本地部署Google Gemma 4 31B。現在你有了一個完全免費、資料不外洩、可自訂的AI助手。

下一步你可以做的是：

今天就去下載Ollama，用一行指令跑起Gemma 4 31B
建立你自己的Modelfile，讓模型完全符合你的需求
安裝Open WebUI，享受圖形化介面的便利
開始用它處理工作——寫郵件、除錯、摘要文件、翻譯

開源AI的時代已經來了，Google開源Gemma 4更是把門檻降到最低。你不需要再依賴雲端服務，不需要擔心隱私外洩，更不需要每個月繳高額費用。

你的電腦，就是你的AI伺服器。

試試看吧，你會驚訝於自己在家就能跑出這樣的AI品質。如果你在過程中遇到任何問題，歡迎在留言區提問，我們一起解決。

🔍 搜尋文章

90%的人不知道！|Google開源模型自己跑

90%的人不知道！|Google開源模型自己跑

為什麼你該自己跑Gemma 4？

第一步：下載工具——Ollama是你的好朋友

第二步：下載並運行Gemma 4 31B

第三步：讓模型更懂你——自訂系統提示

第四步：用網頁介面更舒服地聊天

實際效能測試：它能做什麼？

常見問題

延伸閱讀

總結：你現在可以做的事

🔍 搜尋文章

📬 每週 AI 精選

90%的人不知道！|Google開源模型自己跑

90%的人不知道！|Google開源模型自己跑

為什麼你該自己跑Gemma 4？

第一步：下載工具——Ollama是你的好朋友

第二步：下載並運行Gemma 4 31B

第三步：讓模型更懂你——自訂系統提示

第四步：用網頁介面更舒服地聊天

實際效能測試：它能做什麼？

常見問題

延伸閱讀

總結：你現在可以做的事

相關文章

90%的人不知道？｜這樣找模型最快

90%的人不知道！｜這樣找動漫模型

五分鐘學會！|手機級AI看懂圖片