五分鐘學會!|省你五小時
為什麼你該自己裝DeepSeek V4 Pro?
你有沒有這種經驗?打開ChatGPT或Claude,想問個問題,結果跳出「API額度已用完」的紅字。或者,你只是想要AI幫你整理幾封Email、寫個簡單的Python腳本,卻得擔心每一句提問都在燒錢。
更別提那些敏感資料——公司財務報表、客戶名單、個人信件——你真的放心把它們丟到雲端伺服器上嗎?
今天這篇教學,就是要解決這三個痛點:省錢、隱私、離線可用。我們要教你如何在自己的電腦上,透過開源工具Ollama,安裝DeepSeek V4 Pro——這個在HuggingFace上單週衝破3414個讚、下載量逼近40萬次的超強開源模型。
不用頂級GPU,不用租雲端伺服器。你只需要一台普通的筆電或桌機,五分鐘就能讓AI在你的電腦裡「住下來」,從此再也不怕斷網、不怕被收費、不怕資料外洩。
第一步:Ollama是什麼?為什麼選它?
在開始之前,我們先搞懂一個關鍵工具:Ollama。
你可以把Ollama想像成一個「AI模型的App Store」。它幫你把複雜的模型安裝、環境設定、依賴管理全部包裝成簡單的指令。你不需要懂Python、不用設定CUDA、不用煩惱記憶體配置——只要一行指令,模型就自動下載並啟動。
為什麼選Ollama而不是其他工具?
- 跨平台支援:Windows、macOS、Linux通吃,連Apple Silicon都最佳化。
- 一鍵安裝:下載安裝檔,下一步下一步,搞定。
- 模型管理超簡單:
ollama pull deepseek-v4-pro就下載,ollama run deepseek-v4-pro就開始聊天。 - API相容:Ollama提供與OpenAI相容的API端點,你寫好的程式碼幾乎不用改就能接上。
以台灣讀者小陳為例,他是一名自由接案的程式設計師,每個月花在ChatGPT API上的費用大約NT$1500。自從改用Ollama跑DeepSeek V4 Pro後,這筆錢完全省下來,而且因為模型在本地執行,反應速度比網路API還快。
第二步:硬體需求與安裝實戰
很多人聽到「自己裝AI模型」就害怕,覺得一定要有頂級顯卡。其實不然。DeepSeek V4 Pro有不同大小的量化版本,你可以根據自己的硬體選擇。
最低需求(跑4-bit量化版)
- RAM:16GB(建議32GB以上)
- 儲存空間:約15GB可用空間
- GPU:非必須,但如果有NVIDIA顯卡(6GB VRAM以上)會更快
- CPU:任何4核心以上的處理器
安裝步驟(以Windows為例)
Step 1:下載Ollama 前往 ollama.com 點擊「Download」,選擇你的作業系統版本。安裝過程就像安裝一般軟體,一直按下一步即可。
Step 2:開啟終端機 安裝完成後,打開「命令提示字元」或「PowerShell」。如果你用macOS或Linux,打開終端機。
Step 3:下載DeepSeek V4 Pro模型 在終端機輸入以下指令:
ollama pull deepseek-v4-pro:8b-q4_K_M
這個指令的意思是:下載DeepSeek V4 Pro的8B參數版本,並使用4-bit量化(q4_K_M)。量化就像把一張高畫質照片壓縮成JPEG——檔案變小、速度變快,畫質損失在可接受範圍內。
下載過程會顯示進度條,根據你的網路速度,大約需要5到15分鐘。檔案大小約4.7GB。
Step 4:啟動模型 下載完成後,輸入:
ollama run deepseek-v4-pro:8b-q4_K_M
你就會看到一個簡單的對話介面,可以直接開始問問題了!
真實案例:香港上班族阿偉的體驗
阿偉是一名會計師,需要AI幫他分析Excel報表。他的筆電是2021年的MacBook Air(M1晶片,8GB RAM)。原本他擔心跑不動,但選了4-bit量化版後,模型順利運行,回答一份財務分析問題大約需要8秒——比在網路上等待ChatGPT回應還快。他現在每天用這個本地模型處理客戶資料,完全不用擔心隱私問題。
第三步:進階調校——讓模型跑得更快更準
安裝只是開始。要讓DeepSeek V4 Pro真正成為你的生產力夥伴,有幾個調校技巧你一定要知道。
技巧1:調整上下文長度(Context Length)
DeepSeek V4 Pro支援高達128K token的上下文——相當於一次讀完整本《三體》三部曲。但在一般電腦上,記憶體可能吃不消。
解決方法:在Ollama中設定上下文長度。
建立一個名為 Modelfile 的文字檔案(沒有副檔名),內容如下:
FROM deepseek-v4-pro:8b-q4_K_M
PARAMETER num_ctx 32768
然後執行:
ollama create my-deepseek -f ./Modelfile
ollama run my-deepseek
這樣就把上下文長度設為32K token,兼顧效能與可用性。如果你只是做簡單問答,甚至可以降到8K。
技巧2:使用系統提示(System Prompt)設定角色
Ollama允許你設定系統提示,讓模型「入戲」。例如,你想要一個專業的繁體中文編輯助手:
ollama run deepseek-v4-pro:8b-q4_K_M --system "你是一位專業的繁體中文編輯,擅長改寫文章、修正語法錯誤。請用台灣繁體中文回答。"
從此,模型的所有回答都會維持台灣用語和專業編輯的語氣。
技巧3:開啟GPU加速(如果有的話)
如果你有NVIDIA顯卡,可以讓模型跑在GPU上,速度提升5到10倍。
安裝Ollama時,它會自動偵測CUDA。你只需確認:
ollama run deepseek-v4-pro:8b-q4_K_M --gpu
如果出現類似 using GPU: NVIDIA GeForce RTX 3060 的訊息,就代表成功了。
技巧4:透過API整合到日常工具
Ollama預設在 http://localhost:11434 提供API。你可以用任何支援OpenAI API的軟體連接到這個端點。
例如,在VS Code中安裝「Continue」擴充功能,設定:
{
"models": [{
"title": "DeepSeek V4 Pro (Local)",
"provider": "openai",
"model": "deepseek-v4-pro:8b-q4_K_M",
"apiBase": "http://localhost:11434/v1"
}]
}
從此,你在寫程式時,可以直接用本地AI幫你補程式碼、寫註解、甚至debug——全部離線完成。
總結:掌握AI,而不是被AI綁架
今天我們學會了三件事:
- Ollama是什麼:一個讓AI模型安裝變得像裝App一樣簡單的工具。
- 如何安裝DeepSeek V4 Pro:五分鐘內,從下載到啟動,全部搞定。
- 進階調校技巧:調整上下文、設定角色、開啟GPU、整合到開發工具。
這不僅省下了每個月幾百到上千元的API費用,更重要的是——你的資料永遠留在你的電腦裡。對於處理機密文件、個人隱私、商業機密的讀者來說,這點無價。
當然,本地模型不是萬能的。DeepSeek V4 Pro的8B量化版本在某些任務上不如GPT-4o或Claude 3.5 Sonnet。但對於日常寫作、程式輔助、資料分析等80%的任務,它已經綽綽有餘。
現在就打開你的電腦,試著安裝一次。就算失敗了,也只是幾分鐘的事——但如果你成功了,從此你就擁有了一個永遠不會斷線、不會漲價、不會偷看你資料的AI助手。
延伸閱讀
常見問題
Q: 我的電腦只有8GB RAM,跑得動嗎?
A: 可以的。選擇4-bit量化版本(如 deepseek-v4-pro:8b-q4_K_M),並將上下文長度調低至8192。在8GB RAM的M1 MacBook Air上,單次回應約需10-15秒,可以正常使用。
Q: 下載的模型檔案很大,會影響電腦效能嗎?
A: 模型檔案約4.7GB,安裝後會佔用硬碟空間,但平時不運行時不會消耗記憶體或CPU。只有當你執行 ollama run 時,模型才會載入記憶體。
Q: 繁體中文支援好嗎?DeepSeek V4 Pro會不會只會簡體中文? A: DeepSeek V4 Pro的繁體中文能力相當不錯。你可以在系統提示中明確指定「請用台灣繁體中文回答」,模型就會自動轉換。部分專有名詞可能需要手動修正,但整體表現令人滿意。
Q: 我可以同時跑多個模型嗎?
A: 可以,但會消耗大量記憶體。例如同時跑DeepSeek V4 Pro 8B和Qwen3.6 27B,可能需要32GB以上的RAM。建議一次只跑一個模型,或使用Ollama的模型切換功能:ollama run <模型名稱> 即可切換。
Q: 這個方法適合企業使用嗎? A: 非常適合。許多企業因為資料安全考量,禁止員工使用外部AI服務。透過Ollama部署本地模型,可以在完全離線的環境中提供AI能力,同時確保資料不外洩。建議搭配Docker或Kubernetes進行大規模部署。