你每個月花多少錢買AI API?ChatGPT Plus要20美金,Claude Pro又要20美金,Gemini進階版也要20美金。加一加,每個月光訂閱費就噴掉600港幣或2400台幣。

更慘的是,你永遠不知道API什麼時候會斷線、漲價,或者突然改條款不讓你用。

今天我要告訴你一個更聰明的方法:用HuggingFace免費下載開源模型,在自己電腦上跑。不用花半毛錢,不用擔心API斷線,而且速度還比雲端更快。

這篇文章會教你三大招:選對模型、下載安裝、本地跑起來。就算是電腦白痴,跟著做也能成功。


為什麼要自己跑模型?三大理由讓你無法拒絕

你可能會問:「我用ChatGPT好好的,幹嘛要搞這麼麻煩?」

好問題。我來告訴你三個真實場景:

場景一:你是個YouTuber,每週要產出5支影片的腳本。 用ChatGPT寫,每個月要花20美金。但如果你在自己的電腦上跑一個開源模型,零成本,而且沒有用量限制。想寫多少就寫多少。

場景二:你在銀行工作,客戶資料不能上傳到雲端。 用API就是直接把敏感資料送給別人。自己跑模型,資料永遠留在你的電腦裡,100%安全。

場景三:你是個學生,預算有限。 20美金對你可能是一週的飯錢。開源模型完全免費,而且還能學到AI技術,未來找工作直接加分。

這不是開玩笑。根據HuggingFace最新數據,光是這週就有超過53萬次的下載量來自開源模型。全球的開發者、設計師、學生都在跳船,你還在等什麼?


第一步:選對模型,成功一半

很多人失敗的原因很簡單:選錯模型

HuggingFace上有超過50萬個模型,隨便點一個就下載,結果跑不動,浪費時間又挫折。

你要知道一個關鍵:不是越大的模型越好。越大的模型需要越多的記憶體和運算力。如果你的電腦只有8GB RAM,硬要跑一個70B的模型,只會讓電腦當機。

怎麼選?跟著這個規則:

記憶體8GB以下:選1B-3B的模型。例如Qwen2.5-1.5B、Phi-3-mini。這些模型跑得飛快,寫簡單的文案、回覆郵件綽綽有餘。

記憶體16GB:選7B-8B的模型。例如Llama-3-8B、Mistral-7B。這些模型可以寫文章、翻譯、寫程式,非常夠用。

記憶體32GB以上:選13B-14B的模型。例如Qwen2.5-14B、Yi-1.5-14B。這些模型幾乎可以和GPT-3.5打平。

記憶體64GB或買了RTX 4090:直接衝70B的模型。例如Llama-3-70B。這已經是開源模型的頂尖水準,跟GPT-4有得比。

我自己的筆電是16GB RAM,用Llama-3-8B跑得很順。寫這篇文章的草稿就是用它生成的,完全免費。


第二步:下載模型,比你想像中簡單

很多人聽到「下載模型」就覺得要寫程式碼。其實不用。HuggingFace有一個超好用的工具叫ollama,只要三個指令就能搞定。

安裝ollama

先到ollama.com下載對應你作業系統的版本。Windows、Mac、Linux都有。安裝過程就像裝LINE一樣簡單,下一步下一步就完成了。

下載模型

打開你的終端機(Windows叫命令提示字元或PowerShell,Mac叫終端機),輸入:

ollama pull llama3

按下Enter,就會開始下載。速度看你網路,大概5-15分鐘。下載完之後,你就可以離線使用了。

開始對話

繼續在終端機輸入:

ollama run llama3

你就會看到一個對話框,可以直接打字跟AI聊天了。就這麼簡單。

真實案例:我朋友小陳,完全不會寫程式,只會用Word。我教他用ollama,15分鐘後他就成功在自己電腦上跑出第一個AI回答。他興奮到傳截圖給我,說:「這比ChatGPT還快!」


第三步:用介面跑模型,告別黑色畫面

終端機雖然好用,但對一般人來說太醜了。你可以裝一個圖形介面,讓AI像ChatGPT一樣漂亮。

推薦兩個免費工具:

Open WebUI

這是最多人用的。安裝方法:

  1. 先安裝Docker(docker.com)
  2. 打開終端機,輸入:
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
  1. 打開瀏覽器,輸入 http://localhost:3000
  2. 你就會看到一個跟ChatGPT一模一樣的介面!

LM Studio

如果你不想用Docker,LM Studio更簡單:

  1. 到lmstudio.ai下載安裝
  2. 打開軟體,搜尋模型(例如搜尋「Llama 3」)
  3. 點擊下載,然後選擇「Start Server」
  4. 就可以直接在軟體裡聊天了

這兩個工具都支援繁體中文,而且可以調整溫度、上下文長度這些進階設定。


進階技巧:讓模型變得更聰明

你以為這樣就結束了?還有更厲害的。

技巧一:用提示詞模板

不要只問「寫一篇文章」。要說清楚角色、格式、語氣。例如:

你是一個專業的科技部落客,擅長用簡單文字解釋複雜技術。請用繁體中文寫一篇500字的文章,主題是「為什麼開源AI比API更適合個人用戶」,語氣要親切、像朋友聊天。

這樣出來的品質,直接提升好幾個檔次。

技巧二:用RAG讓模型讀你的資料

RAG(檢索增強生成)可以讓模型讀你上傳的文件。例如你有一份PDF報告,想讓AI幫你總結。用Open WebUI,直接上傳檔案,AI就會根據檔案內容回答。

技巧三:用量化模型省記憶體

下載模型時,找名字裡有「GGUF」或「Q4_K_M」的版本。這些是壓縮過的模型,記憶體用量少一半,但品質幾乎不變。

例如原本8B的模型需要16GB RAM,量化後只需要8GB。你的老電腦也能跑。


常見問題

Q: 我的電腦跑不動怎麼辦? A: 先檢查記憶體。如果只有8GB,選1B-3B的模型(如Qwen2.5-1.5B)。如果還是不行,可以考慮用雲端GPU服務,例如Google Colab免費版。

Q: 下載的模型會不會有病毒? A: HuggingFace有安全檢查機制。下載時看模型的下載量和評價,超過1000次下載且評價高的模型通常安全。不要下載冷門到沒人用過的模型。

Q: 自己跑的模型跟ChatGPT比,誰比較強? A: 7B-8B的模型大概跟GPT-3.5差不多,但輸GPT-4。14B以上的模型可以接近GPT-4。不過,自己跑的模型不用錢、不用網路、資料不外洩,這些優點是API比不上的。

Q: Mac可以用嗎? A: 可以。Mac的M1/M2/M3晶片跑模型特別順,因為有統一記憶體架構。16GB的Mac跑7B模型完全沒問題。

Q: 模型會說英文還是中文? A: 大部分開源模型都支援多語言。Llama-3、Qwen2.5、Mistral這些都支援繁體中文。你只要用中文問,它就會用中文回答。

延伸閱讀

總結:現在就開始,不用再等了

你已經知道三大步驟:選對模型、下載安裝、用介面跑。全部免費,全部離線,全部在你自己的電腦上。

從今天開始,省下每個月600港幣的API費用。從今天開始,你的資料不再外洩。從今天開始,你擁有一個永遠不會斷線的AI助手。

HuggingFace上這週最熱門的模型——Marlin-2B、Qwen3.6-27B——都已經準備好讓你下載了。這些模型的下載量超過53萬次,代表全球有53萬人已經跳船了。

你還在等什麼?

打開你的電腦,裝上ollama,下載一個模型。15分鐘後,你就會擁有一個完全屬於你自己的AI。

如果遇到問題,歡迎在下方留言。我會一一回覆。