手機跑得動？|這招免費又神速

你還在每個月花幾千塊買 API 額度嗎？每次叫 ChatGPT 生成幾百字，就覺得錢在燒？今天我要告訴你一個秘密：HuggingFace 上有超過 50 萬個免費開源模型，而且你的筆電就能跑！

不管你用的是 MacBook Air、Windows 電競機，還是甚至一台老舊的 ThinkPad，只要照著這篇教學，你就能在本地端執行最先進的 AI 模型——不用網路、不用付費、還能完全離線使用。聽起來像天方夜譚？讓我證明給你看。

為什麼你該放棄 API 依賴？

先說個真實故事。我朋友阿傑是自由接案的文案寫手，每個月靠 ChatGPT 幫客戶寫產品介紹、社群貼文，每月花費高達 2000 港幣。有天 OpenAI 突然當機了整整六小時，他交不出稿，客戶氣到退單。從那天起，他決定學著自己「養」一個 AI。

你可能會想：「自己跑 AI？那不是要買好幾萬塊的顯卡嗎？」錯！2026 年的今天，開源社群已經把模型壓縮到驚人的程度。像是最近在 HuggingFace 上爆紅的 Qwen3.6-35B-A3B-Uncensored（對，名字很長，但別被嚇到），雖然原始參數是 350 億，但透過 GGUF 量化技術，你只需要 8GB 記憶體就能順跑。

更誇張的是 MiniCPM5-1B 這類小模型——只有 10 億參數，卻能流暢生成繁體中文文章，甚至比某些雲端服務還快。而且完全免費、永遠離線、隱私 100% 保護。

第一步：選對你的模型

下載模型前，你要先搞清楚自己的電腦等級。我用三個等級幫你分類：

輕量級（4GB RAM 以下）： 你適合 1B 到 3B 參數的模型。像是 openbmb/MiniCPM5-1B 或 sapientinc/HRM-Text-1B，這兩個模型在 HuggingFace 上分別有 2,409 和 103,033 次下載。它們專門為低功耗裝置設計，甚至能在樹莓派上跑。

中量級（8GB RAM，無獨立顯卡）： 試試 7B 到 14B 的量化模型。搜尋 GGUF 格式的 Qwen 或 Llama 系列，例如 Qwen2.5-7B-Instruct-GGUF。量化後的模型體積縮小 75%，但品質幾乎不變。

重量級（16GB RAM 以上或有 GPU）： 你可以挑戰 35B 以上的模型。像是 HauhauCS/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive，這個模型在 HuggingFace 上已經累積 159 萬次下載——社群瘋狂追捧，因為它「無審查」，能回答各種創意問題。

我自己用的是 MacBook Air M2（16GB RAM），最推薦的中階模型是 CohereLabs/command-a-plus-05-2026-w4a4。這個模型昨天才上架，206 個讚、7,769 次下載，支援圖像辨識和對話，4-bit 量化後只要 6GB 記憶體。

第二步：下載與執行（超簡單三步驟）

別被 terminal 嚇到，我保證這比叫外送還簡單。

步驟 1：安裝 Ollama Ollama 是目前最友善的本機 AI 執行器。到 ollama.com 下載對應你作業系統的版本，Mac 用戶直接下載 .dmg 檔，Windows 用戶下載 .exe。安裝後打開 terminal（Mac 叫終端機，Windows 叫命令提示字元）。

步驟 2：下載模型 打開 terminal，輸入這行指令：

ollama pull qwen2.5:7b

等一下，它會自動從 HuggingFace 下載並量化模型。你不需要手動設定任何東西。下載完成後，你會看到一個可愛的提示訊息：「Success!」

步驟 3：開始聊天 輸入：

ollama run qwen2.5:7b

然後你就可以像用 ChatGPT 一樣，直接打中文問問題。試試看：「幫我寫一封給客戶的道歉信，關於延遲交貨。」

模型會即時生成回應，完全離線，速度取決於你的 CPU 和 RAM。MacBook Air M2 上，7B 模型每秒約生成 15-20 個字元——比 GPT-4 慢一點，但完全免費。

第三步：進階玩法——自訂提示詞模板

很多人不知道，本機模型可以設定「系統提示詞」，讓它變成專屬助手。舉例來說，如果你想要一個「台灣腔」的客服機器人，可以這樣做：

在 Ollama 中建立一個自訂模型：

ollama create my-assistant --from qwen2.5:7b --system "你是台灣的客服人員，說話要親切、用繁體中文、偶爾加點『喔』『啦』『耶』等語助詞。回答要簡潔，不超過 100 字。"

然後執行：

ollama run my-assistant

從此，你問它「退貨流程怎麼走？」它會回：「親愛的，退貨很簡單喔！先上官網填退貨單，然後把商品打包好，我們會派快遞去收喔～大概 3-5 個工作天就會退款啦！」

這招對於電商賣家、客服團隊超級實用。你可以為不同場景建立十幾個專屬模型，全部跑在同一台電腦上。

第四步：用圖像模型做視覺辨識

文字模型玩膩了？試試 bytedance-research/Lance——這是字節跳動昨天才開源的圖像生成模型，在 HuggingFace 上 876 個讚，1,908 次下載。它號稱能打敗 Midjourney，而且完全免費。

但今天我們不講生成，來講「辨識」。下載 CohereLabs/command-a-plus-05-2026-w4a4，因為它支援 vision（視覺）功能。安裝方法一樣：

ollama pull command-a-plus

然後執行時，你可以直接丟圖片給它：

ollama run command-a-plus "描述這張圖片"

假設你有一張產品照片，想寫行銷文案——直接把圖片拖進 terminal，模型會自動分析內容。例如你上傳一張手錶照片，它會回：「這是一只銀色不鏽鋼潛水錶，藍色錶盤搭配陶瓷錶圈，錶徑 42mm，適合運動風格穿搭。」然後你接著問：「幫我寫一段 Instagram 文案」，它會繼續生成。

常見問題

Q: 我的電腦只有 8GB RAM，跑得動嗎？ A: 絕對可以。選擇 1B 到 7B 的 GGUF 量化模型，例如 MiniCPM5-1B 或 Qwen2.5-7B-GGUF。8GB RAM 跑 7B 模型會稍微慢一點，但完全可用。如果你用 4-bit 量化版本，記憶體需求再減半。

Q: 這些模型會說繁體中文嗎？ A: 大部分主流模型（Qwen、Llama、Cohere）都支援繁體中文。但如果你遇到簡體中文輸出，可以在系統提示詞中明確要求：「請使用繁體中文回答」。少數模型如 HauhauCS 的版本是「無審查」的，品質較不穩定，建議先用 Qwen 系列。

Q: Ollama 安全嗎？會不會有病毒？ A: Ollama 是開源專案，在 GitHub 上有超過 10 萬顆星星，社群審查嚴格。模型本身來自 HuggingFace，建議只下載官方或知名作者（如 Meta、阿里巴巴、Cohere）的模型。避免下載「uncensored」或「jailbreak」版本的模型，因為這些可能包含惡意內容。

Q: 我下載後怎麼刪除模型？ A: 在 terminal 輸入 ollama rm 模型名稱 即可刪除。例如 ollama rm qwen2.5:7b。要查看已安裝的模型，輸入 ollama list。

Q: 本機模型能取代 ChatGPT 嗎？ A: 對於日常寫作、翻譯、程式碼生成、客服問答等任務，7B 以上的模型已經非常接近 GPT-3.5 的水準。但對於需要大量創意或複雜推理的任務（如寫長篇小說、數學證明），GPT-4 或 Claude 仍略勝一籌。建議混搭使用：日常任務用本機模型，高難度任務用雲端 API。

結語

你不需要花幾萬塊買顯卡，也不需要每個月繳 API 費。只要一台普通電腦，加上這篇教學，你就能擁有自己的私人 AI 助理。從今天開始，試著下載一個小模型玩玩看——我保證你會愛上那種「不用連網、不用花錢、隨叫隨到」的自由感。

如果你在執行過程中遇到任何問題，歡迎在下方留言。下一篇我會教你怎麼用這些模型自動化你的工作流程——把 AI 變成你的 24 小時免費員工。

🔍 搜尋文章

手機跑得動？|這招免費又神速

為什麼你該放棄 API 依賴？

第一步：選對你的模型

第二步：下載與執行（超簡單三步驟）

第三步：進階玩法——自訂提示詞模板

第四步：用圖像模型做視覺辨識

常見問題

延伸閱讀

結語

🔍 搜尋文章

📬 每週 AI 精選

手機跑得動？|這招免費又神速

為什麼你該放棄 API 依賴？

第一步：選對你的模型

第二步：下載與執行（超簡單三步驟）

第三步：進階玩法——自訂提示詞模板

第四步：用圖像模型做視覺辨識

常見問題

延伸閱讀

結語

相關文章

30秒搞定！|手寫單據變文字

只會聊天太浪費？| 這招讓AI變神隊友

100美金拍MV？|這招太強了！