你還在乖乖付費使用DeepSeek V4 Pro的API嗎?每次調用都要算Token,問幾個問題錢就噴光了。更別提有時候回應超慢,等半天還斷線。

今天我要告訴你一個秘密:你完全可以在自己的電腦上,免費、離線、無限制地跑DeepSeek V4 Pro!而且效能驚人,速度比雲端API還快。

這不是什麼駭客技巧,而是開源社群給所有人的禮物。 你只需要準備好電腦,跟著我一步一步做,30分鐘內就能擁有自己的AI助理。不用再擔心API費用、資料外洩,或是網路斷線。

準備好了嗎?讓我們開始吧。

為什麼要在本地跑DeepSeek V4 Pro?

你可能會問:「用API不是更方便嗎?為什麼要這麼麻煩?」

好問題。但讓我告訴你三個殘酷的現實:

第一,API很貴。 以DeepSeek V4 Pro為例,每百萬Token的輸入費用大約是0.5美元,輸出是2美元。如果你每天問100個問題,每個問題平均消耗500個Token,一個月下來就是(100×500×30)÷1,000,000 × (0.5+2) /2 = 約11.25美元。聽起來不多?但如果你開始用它寫程式、分析大量文件,費用會直線飆升。我認識一個開發者,一個月花了300多美元API費。

第二,隱私問題。 你把公司的機密程式碼、客戶的敏感資料全部上傳到雲端伺服器。萬一發生資料外洩怎麼辦?某些行業(如金融、醫療)甚至不允許資料離開本地網路。

第三,延遲和依賴性。 網路一斷,AI就罷工。API伺服器維修時,你只能乾瞪眼。本地運行的模型隨時可用,回應速度穩定,不受網路影響。

所以,自己裝一個,不僅省錢,還更安心。

你的電腦跑得動嗎?硬體需求先確認

在開始之前,我們先確認你的電腦夠不夠力。DeepSeek V4 Pro是大型語言模型,需要一定的硬體資源。

最低配置(能跑,但慢):

  • 顯示卡:NVIDIA GTX 1060 6GB 或同等級
  • 記憶體:16GB RAM
  • 儲存空間:至少50GB 可用空間
  • 作業系統:Windows 10/11、macOS 12+、或 Ubuntu 20.04+

建議配置(順暢使用):

  • 顯示卡:NVIDIA RTX 3060 12GB 或更高
  • 記憶體:32GB RAM
  • 儲存空間:100GB SSD(模型檔案約40GB)
  • 作業系統:Windows 11、macOS 14+、或 Ubuntu 22.04+

如果你是Mac用戶:

  • M1/M2/M3晶片的Mac,建議至少16GB統一記憶體
  • Intel Mac的話,建議32GB RAM以上

不確定自己的顯卡?在Windows上按 Win + R,輸入 dxdiag,就可以看到顯示卡型號和記憶體。Mac用戶點左上角蘋果圖示 > 「關於這台Mac」。

如果你的電腦跑不動別擔心,後面我會介紹一些輕量替代方案。

第一步:安裝Ollama——最簡單的模型管理器

Ollama是目前最受歡迎的本地模型運行工具,沒有之一。它把複雜的模型部署簡化成一行指令。

安裝步驟:

  1. 前往 ollama.com
  2. 點選你作業系統對應的下載按鈕(Windows、macOS、Linux都有)
  3. 下載後雙擊安裝,就像安裝一般軟體一樣
  4. 安裝完成後,打開終端機(Windows用PowerShell,Mac用終端機)

驗證安裝: 在終端機輸入:

ollama --version

如果顯示版本號,恭喜你,安裝成功!

小提示: 安裝完成後,Ollama會自動在背景執行。你可以在系統工具列看到它的圖示。

第二步:下載DeepSeek V4 Pro模型

現在,我們要下載模型本身。DeepSeek V4 Pro有不同的版本,考量到硬體限制和效能,我推薦使用量化版本(Q4_K_M),它在品質和速度之間取得最佳平衡。

下載指令: 在終端機輸入:

ollama pull deepseek-v4-pro:Q4_K_M

這個過程會下載約40GB的模型檔案,時間取決於你的網路速度。如果是100M光纖,大約需要1小時。你可以去泡杯咖啡,或先做其他事。

如果硬體不夠力怎麼辦?

  • 如果你只有8GB顯卡,可以試試 deepseek-v4-pro:Q3_K_M(約30GB,品質略降)
  • 如果你只有6GB顯卡,試試 deepseek-v4-pro:Q2_K(約20GB,但回答品質會明顯下降)
  • 如果你的電腦完全跑不動,可以考慮用 deepseek-coder-v2qwen2.5-coder 等較小模型

下載完成後, 你會看到類似這樣的輸出:

pulling manifest 
pulling 3b8c2b... 100% ▕█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ 40 GB
verifying sha256 digest 
writing manifest 
removing any unused layers 
success 

第三步:第一次對話——測試你的AI

模型下載完成後,直接在終端機輸入:

ollama run deepseek-v4-pro:Q4_K_M

你會看到一個 >>> 提示符號,這表示AI已經準備好回答你的問題了。

試試這些問題:

>>> 用Python寫一個計算費氏數列的函數
>>> 解釋量子糾纏是什麼
>>> 幫我寫一封給客戶的道歉郵件,語氣要誠懇

退出對話: 輸入 /bye 或按 Ctrl + D

注意事項: 第一次載入模型可能需要30秒到1分鐘,因為要把模型載入記憶體。之後的回應速度就很快了,每秒可以生成30-50個Token。

第四步:進階設定——讓AI更懂你

Ollama不只是跑模型而已,它還有很多實用的設定可以調整。

修改系統提示詞(System Prompt)

系統提示詞決定了AI的行為模式。你可以讓它扮演特定角色:

ollama run deepseek-v4-pro:Q4_K_M --system "你是專業的Python程式設計師,回答要簡潔,附上程式碼範例"

調整參數讓回答更精準

  • 溫度(Temperature): 數值越低(0.1-0.3),回答越確定、保守;數值越高(0.7-1.0),回答越有創意、多樣化
  • 最大Token數: 控制回答長度

在對話中輸入:

/set parameter temperature 0.3

這樣回答就會比較精確,適合寫程式或事實查詢。

建立自訂模型(Modelfile)

如果你常常需要特定設定,可以建立一個自訂模型:

  1. 建立一個文字檔案 myassistant.Modelfile
  2. 內容如下:
FROM deepseek-v4-pro:Q4_K_M
SYSTEM "你是擅長繁體中文的AI助理,回答要詳細、有條理,附上實際範例。"
PARAMETER temperature 0.5
PARAMETER num_ctx 4096
  1. 在終端機執行:
ollama create myassistant -f ./myassistant.Modelfile
  1. 以後就可以用 ollama run myassistant 啟動你的自訂AI

第五步:整合到你的日常工具

現在你的AI已經可以正常運作,但每次都開終端機有點麻煩。我們把它整合到常用工具中。

整合到VS Code(程式設計師必看)

安裝「Continue」擴充套件:

  1. 在VS Code左側點選擴充功能圖示
  2. 搜尋「Continue」
  3. 安裝後,點選齒輪圖示設定
  4. 在設定檔中加入:
{
  "models": [{
    "title": "DeepSeek V4 Pro (Local)",
    "provider": "ollama",
    "model": "deepseek-v4-pro:Q4_K_M"
  }]
}
  1. 現在你可以在VS Code中直接選取程式碼,按 Ctrl + I 讓AI幫你解釋或改寫

使用Web UI(圖形介面)

如果你不習慣終端機,可以安裝Open WebUI:

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

然後在瀏覽器打開 http://localhost:3000,你就有一個類似ChatGPT的介面,但背後是你的本地AI!

常見問題

Q: 我的電腦只有8GB RAM,能跑嗎? A: 可以,但建議使用更小的量化版本如 Q3_K_MQ2_K。如果還是跑不動,可以考慮 deepseek-coder-v2:7bqwen2.5:7b 等更輕量的模型。執行時關閉其他程式,釋放更多記憶體。

Q: 模型下載到一半斷線怎麼辦? A: Ollama支援斷點續傳。重新執行 ollama pull deepseek-v4-pro:Q4_K_M 會從中斷處繼續下載,不用重新開始。

Q: 本地AI和ChatGPT比起來,誰比較厲害? A: DeepSeek V4 Pro在程式碼生成和邏輯推理上表現出色,接近GPT-4水準。但在創意寫作、多輪對話流暢度上,ChatGPT仍略勝一籌。不過本地AI的隱私和零成本優勢是雲端無法比擬的。

Q: 可以同時跑多個模型嗎? A: 可以,但非常吃記憶體。如果你有64GB RAM以上,可以同時載入2個模型。建議一次只跑一個,用 ollama stop 模型名稱 停止當前模型後再啟動另一個。

Q: 模型會自動更新嗎? A: 不會。當有新版本釋出時,你需要手動執行 ollama pull deepseek-v4-pro:Q4_K_M 來更新。建議每個月檢查一次官方公告。

Q: 我該怎麼備份我的對話記錄? A: Ollama預設不儲存對話記錄。如果你使用Open WebUI,對話會自動保存在資料庫中。你也可以手動將終端機的輸出複製到文字檔備份。

延伸閱讀

結語:從今天開始,擁有自己的AI

現在你已經知道如何在本地安裝DeepSeek V4 Pro了。從今天開始,你可以:

  • 省下每個月的API費用——即使每天用10小時,電費也不到100元台幣
  • 保護你的隱私——所有資料都在你的電腦上,沒有人能偷看
  • 隨時隨地使用——沒有網路限制,飛機上、山裡面都能用
  • 完全自訂——調整參數、設定角色,打造專屬於你的AI

我知道設定過程看起來有點複雜,但相信我,一旦你成功跑起來,那種成就感絕對值得。而且以後只要重複同樣步驟,就能輕鬆安裝其他開源模型。

如果你在過程遇到問題,歡迎到MobDome的社群留言,我們會盡快幫你解答。

下一步挑戰: 試著用本地AI幫你寫一個自動回信程式,或是分析一整年份的財報資料。你會發現,擁有自己的AI,比你想像中還有趣!