你還在每個月花幾千塊買 API 額度嗎?每次叫 ChatGPT 生成幾百字,就覺得錢在燒?今天我要告訴你一個秘密:HuggingFace 上有超過 50 萬個免費開源模型,而且你的筆電就能跑!
不管你用的是 MacBook Air、Windows 電競機,還是甚至一台老舊的 ThinkPad,只要照著這篇教學,你就能在本地端執行最先進的 AI 模型——不用網路、不用付費、還能完全離線使用。聽起來像天方夜譚?讓我證明給你看。
為什麼你該放棄 API 依賴?
先說個真實故事。我朋友阿傑是自由接案的文案寫手,每個月靠 ChatGPT 幫客戶寫產品介紹、社群貼文,每月花費高達 2000 港幣。有天 OpenAI 突然當機了整整六小時,他交不出稿,客戶氣到退單。從那天起,他決定學著自己「養」一個 AI。
你可能會想:「自己跑 AI?那不是要買好幾萬塊的顯卡嗎?」錯!2026 年的今天,開源社群已經把模型壓縮到驚人的程度。像是最近在 HuggingFace 上爆紅的 Qwen3.6-35B-A3B-Uncensored(對,名字很長,但別被嚇到),雖然原始參數是 350 億,但透過 GGUF 量化技術,你只需要 8GB 記憶體就能順跑。
更誇張的是 MiniCPM5-1B 這類小模型——只有 10 億參數,卻能流暢生成繁體中文文章,甚至比某些雲端服務還快。而且完全免費、永遠離線、隱私 100% 保護。
第一步:選對你的模型
下載模型前,你要先搞清楚自己的電腦等級。我用三個等級幫你分類:
輕量級(4GB RAM 以下): 你適合 1B 到 3B 參數的模型。像是 openbmb/MiniCPM5-1B 或 sapientinc/HRM-Text-1B,這兩個模型在 HuggingFace 上分別有 2,409 和 103,033 次下載。它們專門為低功耗裝置設計,甚至能在樹莓派上跑。
中量級(8GB RAM,無獨立顯卡): 試試 7B 到 14B 的量化模型。搜尋 GGUF 格式的 Qwen 或 Llama 系列,例如 Qwen2.5-7B-Instruct-GGUF。量化後的模型體積縮小 75%,但品質幾乎不變。
重量級(16GB RAM 以上或有 GPU): 你可以挑戰 35B 以上的模型。像是 HauhauCS/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive,這個模型在 HuggingFace 上已經累積 159 萬次下載——社群瘋狂追捧,因為它「無審查」,能回答各種創意問題。
我自己用的是 MacBook Air M2(16GB RAM),最推薦的中階模型是 CohereLabs/command-a-plus-05-2026-w4a4。這個模型昨天才上架,206 個讚、7,769 次下載,支援圖像辨識和對話,4-bit 量化後只要 6GB 記憶體。
第二步:下載與執行(超簡單三步驟)
別被 terminal 嚇到,我保證這比叫外送還簡單。
步驟 1:安裝 Ollama Ollama 是目前最友善的本機 AI 執行器。到 ollama.com 下載對應你作業系統的版本,Mac 用戶直接下載 .dmg 檔,Windows 用戶下載 .exe。安裝後打開 terminal(Mac 叫終端機,Windows 叫命令提示字元)。
步驟 2:下載模型 打開 terminal,輸入這行指令:
ollama pull qwen2.5:7b
等一下,它會自動從 HuggingFace 下載並量化模型。你不需要手動設定任何東西。下載完成後,你會看到一個可愛的提示訊息:「Success!」
步驟 3:開始聊天 輸入:
ollama run qwen2.5:7b
然後你就可以像用 ChatGPT 一樣,直接打中文問問題。試試看:「幫我寫一封給客戶的道歉信,關於延遲交貨。」
模型會即時生成回應,完全離線,速度取決於你的 CPU 和 RAM。MacBook Air M2 上,7B 模型每秒約生成 15-20 個字元——比 GPT-4 慢一點,但完全免費。
第三步:進階玩法——自訂提示詞模板
很多人不知道,本機模型可以設定「系統提示詞」,讓它變成專屬助手。舉例來說,如果你想要一個「台灣腔」的客服機器人,可以這樣做:
在 Ollama 中建立一個自訂模型:
ollama create my-assistant --from qwen2.5:7b --system "你是台灣的客服人員,說話要親切、用繁體中文、偶爾加點『喔』『啦』『耶』等語助詞。回答要簡潔,不超過 100 字。"
然後執行:
ollama run my-assistant
從此,你問它「退貨流程怎麼走?」它會回:「親愛的,退貨很簡單喔!先上官網填退貨單,然後把商品打包好,我們會派快遞去收喔~大概 3-5 個工作天就會退款啦!」
這招對於電商賣家、客服團隊超級實用。你可以為不同場景建立十幾個專屬模型,全部跑在同一台電腦上。
第四步:用圖像模型做視覺辨識
文字模型玩膩了?試試 bytedance-research/Lance——這是字節跳動昨天才開源的圖像生成模型,在 HuggingFace 上 876 個讚,1,908 次下載。它號稱能打敗 Midjourney,而且完全免費。
但今天我們不講生成,來講「辨識」。下載 CohereLabs/command-a-plus-05-2026-w4a4,因為它支援 vision(視覺)功能。安裝方法一樣:
ollama pull command-a-plus
然後執行時,你可以直接丟圖片給它:
ollama run command-a-plus "描述這張圖片"
假設你有一張產品照片,想寫行銷文案——直接把圖片拖進 terminal,模型會自動分析內容。例如你上傳一張手錶照片,它會回:「這是一只銀色不鏽鋼潛水錶,藍色錶盤搭配陶瓷錶圈,錶徑 42mm,適合運動風格穿搭。」然後你接著問:「幫我寫一段 Instagram 文案」,它會繼續生成。
常見問題
Q: 我的電腦只有 8GB RAM,跑得動嗎? A: 絕對可以。選擇 1B 到 7B 的 GGUF 量化模型,例如 MiniCPM5-1B 或 Qwen2.5-7B-GGUF。8GB RAM 跑 7B 模型會稍微慢一點,但完全可用。如果你用 4-bit 量化版本,記憶體需求再減半。
Q: 這些模型會說繁體中文嗎? A: 大部分主流模型(Qwen、Llama、Cohere)都支援繁體中文。但如果你遇到簡體中文輸出,可以在系統提示詞中明確要求:「請使用繁體中文回答」。少數模型如 HauhauCS 的版本是「無審查」的,品質較不穩定,建議先用 Qwen 系列。
Q: Ollama 安全嗎?會不會有病毒? A: Ollama 是開源專案,在 GitHub 上有超過 10 萬顆星星,社群審查嚴格。模型本身來自 HuggingFace,建議只下載官方或知名作者(如 Meta、阿里巴巴、Cohere)的模型。避免下載「uncensored」或「jailbreak」版本的模型,因為這些可能包含惡意內容。
Q: 我下載後怎麼刪除模型?
A: 在 terminal 輸入 ollama rm 模型名稱 即可刪除。例如 ollama rm qwen2.5:7b。要查看已安裝的模型,輸入 ollama list。
Q: 本機模型能取代 ChatGPT 嗎? A: 對於日常寫作、翻譯、程式碼生成、客服問答等任務,7B 以上的模型已經非常接近 GPT-3.5 的水準。但對於需要大量創意或複雜推理的任務(如寫長篇小說、數學證明),GPT-4 或 Claude 仍略勝一籌。建議混搭使用:日常任務用本機模型,高難度任務用雲端 API。
延伸閱讀
結語
你不需要花幾萬塊買顯卡,也不需要每個月繳 API 費。只要一台普通電腦,加上這篇教學,你就能擁有自己的私人 AI 助理。從今天開始,試著下載一個小模型玩玩看——我保證你會愛上那種「不用連網、不用花錢、隨叫隨到」的自由感。
如果你在執行過程中遇到任何問題,歡迎在下方留言。下一篇我會教你怎麼用這些模型自動化你的工作流程——把 AI 變成你的 24 小時免費員工。