你還在乖乖付費使用DeepSeek V4 Pro的API嗎?每次調用都要算Token,問幾個問題錢就噴光了。更別提有時候回應超慢,等半天還斷線。
今天我要告訴你一個秘密:你完全可以在自己的電腦上,免費、離線、無限制地跑DeepSeek V4 Pro!而且效能驚人,速度比雲端API還快。
這不是什麼駭客技巧,而是開源社群給所有人的禮物。 你只需要準備好電腦,跟著我一步一步做,30分鐘內就能擁有自己的AI助理。不用再擔心API費用、資料外洩,或是網路斷線。
準備好了嗎?讓我們開始吧。
為什麼要在本地跑DeepSeek V4 Pro?
你可能會問:「用API不是更方便嗎?為什麼要這麼麻煩?」
好問題。但讓我告訴你三個殘酷的現實:
第一,API很貴。 以DeepSeek V4 Pro為例,每百萬Token的輸入費用大約是0.5美元,輸出是2美元。如果你每天問100個問題,每個問題平均消耗500個Token,一個月下來就是(100×500×30)÷1,000,000 × (0.5+2) /2 = 約11.25美元。聽起來不多?但如果你開始用它寫程式、分析大量文件,費用會直線飆升。我認識一個開發者,一個月花了300多美元API費。
第二,隱私問題。 你把公司的機密程式碼、客戶的敏感資料全部上傳到雲端伺服器。萬一發生資料外洩怎麼辦?某些行業(如金融、醫療)甚至不允許資料離開本地網路。
第三,延遲和依賴性。 網路一斷,AI就罷工。API伺服器維修時,你只能乾瞪眼。本地運行的模型隨時可用,回應速度穩定,不受網路影響。
所以,自己裝一個,不僅省錢,還更安心。
你的電腦跑得動嗎?硬體需求先確認
在開始之前,我們先確認你的電腦夠不夠力。DeepSeek V4 Pro是大型語言模型,需要一定的硬體資源。
最低配置(能跑,但慢):
- 顯示卡:NVIDIA GTX 1060 6GB 或同等級
- 記憶體:16GB RAM
- 儲存空間:至少50GB 可用空間
- 作業系統:Windows 10/11、macOS 12+、或 Ubuntu 20.04+
建議配置(順暢使用):
- 顯示卡:NVIDIA RTX 3060 12GB 或更高
- 記憶體:32GB RAM
- 儲存空間:100GB SSD(模型檔案約40GB)
- 作業系統:Windows 11、macOS 14+、或 Ubuntu 22.04+
如果你是Mac用戶:
- M1/M2/M3晶片的Mac,建議至少16GB統一記憶體
- Intel Mac的話,建議32GB RAM以上
不確定自己的顯卡?在Windows上按 Win + R,輸入 dxdiag,就可以看到顯示卡型號和記憶體。Mac用戶點左上角蘋果圖示 > 「關於這台Mac」。
如果你的電腦跑不動別擔心,後面我會介紹一些輕量替代方案。
第一步:安裝Ollama——最簡單的模型管理器
Ollama是目前最受歡迎的本地模型運行工具,沒有之一。它把複雜的模型部署簡化成一行指令。
安裝步驟:
- 前往 ollama.com
- 點選你作業系統對應的下載按鈕(Windows、macOS、Linux都有)
- 下載後雙擊安裝,就像安裝一般軟體一樣
- 安裝完成後,打開終端機(Windows用PowerShell,Mac用終端機)
驗證安裝: 在終端機輸入:
ollama --version
如果顯示版本號,恭喜你,安裝成功!
小提示: 安裝完成後,Ollama會自動在背景執行。你可以在系統工具列看到它的圖示。
第二步:下載DeepSeek V4 Pro模型
現在,我們要下載模型本身。DeepSeek V4 Pro有不同的版本,考量到硬體限制和效能,我推薦使用量化版本(Q4_K_M),它在品質和速度之間取得最佳平衡。
下載指令: 在終端機輸入:
ollama pull deepseek-v4-pro:Q4_K_M
這個過程會下載約40GB的模型檔案,時間取決於你的網路速度。如果是100M光纖,大約需要1小時。你可以去泡杯咖啡,或先做其他事。
如果硬體不夠力怎麼辦?
- 如果你只有8GB顯卡,可以試試
deepseek-v4-pro:Q3_K_M(約30GB,品質略降) - 如果你只有6GB顯卡,試試
deepseek-v4-pro:Q2_K(約20GB,但回答品質會明顯下降) - 如果你的電腦完全跑不動,可以考慮用
deepseek-coder-v2或qwen2.5-coder等較小模型
下載完成後, 你會看到類似這樣的輸出:
pulling manifest
pulling 3b8c2b... 100% ▕█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ 40 GB
verifying sha256 digest
writing manifest
removing any unused layers
success
第三步:第一次對話——測試你的AI
模型下載完成後,直接在終端機輸入:
ollama run deepseek-v4-pro:Q4_K_M
你會看到一個 >>> 提示符號,這表示AI已經準備好回答你的問題了。
試試這些問題:
>>> 用Python寫一個計算費氏數列的函數
>>> 解釋量子糾纏是什麼
>>> 幫我寫一封給客戶的道歉郵件,語氣要誠懇
退出對話: 輸入 /bye 或按 Ctrl + D
注意事項: 第一次載入模型可能需要30秒到1分鐘,因為要把模型載入記憶體。之後的回應速度就很快了,每秒可以生成30-50個Token。
第四步:進階設定——讓AI更懂你
Ollama不只是跑模型而已,它還有很多實用的設定可以調整。
修改系統提示詞(System Prompt)
系統提示詞決定了AI的行為模式。你可以讓它扮演特定角色:
ollama run deepseek-v4-pro:Q4_K_M --system "你是專業的Python程式設計師,回答要簡潔,附上程式碼範例"
調整參數讓回答更精準
- 溫度(Temperature): 數值越低(0.1-0.3),回答越確定、保守;數值越高(0.7-1.0),回答越有創意、多樣化
- 最大Token數: 控制回答長度
在對話中輸入:
/set parameter temperature 0.3
這樣回答就會比較精確,適合寫程式或事實查詢。
建立自訂模型(Modelfile)
如果你常常需要特定設定,可以建立一個自訂模型:
- 建立一個文字檔案
myassistant.Modelfile - 內容如下:
FROM deepseek-v4-pro:Q4_K_M
SYSTEM "你是擅長繁體中文的AI助理,回答要詳細、有條理,附上實際範例。"
PARAMETER temperature 0.5
PARAMETER num_ctx 4096
- 在終端機執行:
ollama create myassistant -f ./myassistant.Modelfile
- 以後就可以用
ollama run myassistant啟動你的自訂AI
第五步:整合到你的日常工具
現在你的AI已經可以正常運作,但每次都開終端機有點麻煩。我們把它整合到常用工具中。
整合到VS Code(程式設計師必看)
安裝「Continue」擴充套件:
- 在VS Code左側點選擴充功能圖示
- 搜尋「Continue」
- 安裝後,點選齒輪圖示設定
- 在設定檔中加入:
{
"models": [{
"title": "DeepSeek V4 Pro (Local)",
"provider": "ollama",
"model": "deepseek-v4-pro:Q4_K_M"
}]
}
- 現在你可以在VS Code中直接選取程式碼,按
Ctrl + I讓AI幫你解釋或改寫
使用Web UI(圖形介面)
如果你不習慣終端機,可以安裝Open WebUI:
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
然後在瀏覽器打開 http://localhost:3000,你就有一個類似ChatGPT的介面,但背後是你的本地AI!
常見問題
Q: 我的電腦只有8GB RAM,能跑嗎?
A: 可以,但建議使用更小的量化版本如 Q3_K_M 或 Q2_K。如果還是跑不動,可以考慮 deepseek-coder-v2:7b 或 qwen2.5:7b 等更輕量的模型。執行時關閉其他程式,釋放更多記憶體。
Q: 模型下載到一半斷線怎麼辦?
A: Ollama支援斷點續傳。重新執行 ollama pull deepseek-v4-pro:Q4_K_M 會從中斷處繼續下載,不用重新開始。
Q: 本地AI和ChatGPT比起來,誰比較厲害? A: DeepSeek V4 Pro在程式碼生成和邏輯推理上表現出色,接近GPT-4水準。但在創意寫作、多輪對話流暢度上,ChatGPT仍略勝一籌。不過本地AI的隱私和零成本優勢是雲端無法比擬的。
Q: 可以同時跑多個模型嗎?
A: 可以,但非常吃記憶體。如果你有64GB RAM以上,可以同時載入2個模型。建議一次只跑一個,用 ollama stop 模型名稱 停止當前模型後再啟動另一個。
Q: 模型會自動更新嗎?
A: 不會。當有新版本釋出時,你需要手動執行 ollama pull deepseek-v4-pro:Q4_K_M 來更新。建議每個月檢查一次官方公告。
Q: 我該怎麼備份我的對話記錄? A: Ollama預設不儲存對話記錄。如果你使用Open WebUI,對話會自動保存在資料庫中。你也可以手動將終端機的輸出複製到文字檔備份。
延伸閱讀
結語:從今天開始,擁有自己的AI
現在你已經知道如何在本地安裝DeepSeek V4 Pro了。從今天開始,你可以:
- 省下每個月的API費用——即使每天用10小時,電費也不到100元台幣
- 保護你的隱私——所有資料都在你的電腦上,沒有人能偷看
- 隨時隨地使用——沒有網路限制,飛機上、山裡面都能用
- 完全自訂——調整參數、設定角色,打造專屬於你的AI
我知道設定過程看起來有點複雜,但相信我,一旦你成功跑起來,那種成就感絕對值得。而且以後只要重複同樣步驟,就能輕鬆安裝其他開源模型。
如果你在過程遇到問題,歡迎到MobDome的社群留言,我們會盡快幫你解答。
下一步挑戰: 試著用本地AI幫你寫一個自動回信程式,或是分析一整年份的財報資料。你會發現,擁有自己的AI,比你想像中還有趣!