五分鐘學會!|省你五小時

為什麼你該自己裝DeepSeek V4 Pro?

你有沒有這種經驗?打開ChatGPT或Claude,想問個問題,結果跳出「API額度已用完」的紅字。或者,你只是想要AI幫你整理幾封Email、寫個簡單的Python腳本,卻得擔心每一句提問都在燒錢。

更別提那些敏感資料——公司財務報表、客戶名單、個人信件——你真的放心把它們丟到雲端伺服器上嗎?

今天這篇教學,就是要解決這三個痛點:省錢、隱私、離線可用。我們要教你如何在自己的電腦上,透過開源工具Ollama,安裝DeepSeek V4 Pro——這個在HuggingFace上單週衝破3414個讚、下載量逼近40萬次的超強開源模型。

不用頂級GPU,不用租雲端伺服器。你只需要一台普通的筆電或桌機,五分鐘就能讓AI在你的電腦裡「住下來」,從此再也不怕斷網、不怕被收費、不怕資料外洩。

第一步:Ollama是什麼?為什麼選它?

在開始之前,我們先搞懂一個關鍵工具:Ollama

你可以把Ollama想像成一個「AI模型的App Store」。它幫你把複雜的模型安裝、環境設定、依賴管理全部包裝成簡單的指令。你不需要懂Python、不用設定CUDA、不用煩惱記憶體配置——只要一行指令,模型就自動下載並啟動。

為什麼選Ollama而不是其他工具?

  • 跨平台支援:Windows、macOS、Linux通吃,連Apple Silicon都最佳化。
  • 一鍵安裝:下載安裝檔,下一步下一步,搞定。
  • 模型管理超簡單ollama pull deepseek-v4-pro 就下載,ollama run deepseek-v4-pro 就開始聊天。
  • API相容:Ollama提供與OpenAI相容的API端點,你寫好的程式碼幾乎不用改就能接上。

以台灣讀者小陳為例,他是一名自由接案的程式設計師,每個月花在ChatGPT API上的費用大約NT$1500。自從改用Ollama跑DeepSeek V4 Pro後,這筆錢完全省下來,而且因為模型在本地執行,反應速度比網路API還快。

第二步:硬體需求與安裝實戰

很多人聽到「自己裝AI模型」就害怕,覺得一定要有頂級顯卡。其實不然。DeepSeek V4 Pro有不同大小的量化版本,你可以根據自己的硬體選擇。

最低需求(跑4-bit量化版)

  • RAM:16GB(建議32GB以上)
  • 儲存空間:約15GB可用空間
  • GPU:非必須,但如果有NVIDIA顯卡(6GB VRAM以上)會更快
  • CPU:任何4核心以上的處理器

安裝步驟(以Windows為例)

Step 1:下載Ollama 前往 ollama.com 點擊「Download」,選擇你的作業系統版本。安裝過程就像安裝一般軟體,一直按下一步即可。

Step 2:開啟終端機 安裝完成後,打開「命令提示字元」或「PowerShell」。如果你用macOS或Linux,打開終端機。

Step 3:下載DeepSeek V4 Pro模型 在終端機輸入以下指令:

ollama pull deepseek-v4-pro:8b-q4_K_M

這個指令的意思是:下載DeepSeek V4 Pro的8B參數版本,並使用4-bit量化(q4_K_M)。量化就像把一張高畫質照片壓縮成JPEG——檔案變小、速度變快,畫質損失在可接受範圍內。

下載過程會顯示進度條,根據你的網路速度,大約需要5到15分鐘。檔案大小約4.7GB。

Step 4:啟動模型 下載完成後,輸入:

ollama run deepseek-v4-pro:8b-q4_K_M

你就會看到一個簡單的對話介面,可以直接開始問問題了!

真實案例:香港上班族阿偉的體驗

阿偉是一名會計師,需要AI幫他分析Excel報表。他的筆電是2021年的MacBook Air(M1晶片,8GB RAM)。原本他擔心跑不動,但選了4-bit量化版後,模型順利運行,回答一份財務分析問題大約需要8秒——比在網路上等待ChatGPT回應還快。他現在每天用這個本地模型處理客戶資料,完全不用擔心隱私問題。

第三步:進階調校——讓模型跑得更快更準

安裝只是開始。要讓DeepSeek V4 Pro真正成為你的生產力夥伴,有幾個調校技巧你一定要知道。

技巧1:調整上下文長度(Context Length)

DeepSeek V4 Pro支援高達128K token的上下文——相當於一次讀完整本《三體》三部曲。但在一般電腦上,記憶體可能吃不消。

解決方法:在Ollama中設定上下文長度。

建立一個名為 Modelfile 的文字檔案(沒有副檔名),內容如下:

FROM deepseek-v4-pro:8b-q4_K_M
PARAMETER num_ctx 32768

然後執行:

ollama create my-deepseek -f ./Modelfile
ollama run my-deepseek

這樣就把上下文長度設為32K token,兼顧效能與可用性。如果你只是做簡單問答,甚至可以降到8K。

技巧2:使用系統提示(System Prompt)設定角色

Ollama允許你設定系統提示,讓模型「入戲」。例如,你想要一個專業的繁體中文編輯助手:

ollama run deepseek-v4-pro:8b-q4_K_M --system "你是一位專業的繁體中文編輯,擅長改寫文章、修正語法錯誤。請用台灣繁體中文回答。"

從此,模型的所有回答都會維持台灣用語和專業編輯的語氣。

技巧3:開啟GPU加速(如果有的話)

如果你有NVIDIA顯卡,可以讓模型跑在GPU上,速度提升5到10倍。

安裝Ollama時,它會自動偵測CUDA。你只需確認:

ollama run deepseek-v4-pro:8b-q4_K_M --gpu

如果出現類似 using GPU: NVIDIA GeForce RTX 3060 的訊息,就代表成功了。

技巧4:透過API整合到日常工具

Ollama預設在 http://localhost:11434 提供API。你可以用任何支援OpenAI API的軟體連接到這個端點。

例如,在VS Code中安裝「Continue」擴充功能,設定:

{
  "models": [{
    "title": "DeepSeek V4 Pro (Local)",
    "provider": "openai",
    "model": "deepseek-v4-pro:8b-q4_K_M",
    "apiBase": "http://localhost:11434/v1"
  }]
}

從此,你在寫程式時,可以直接用本地AI幫你補程式碼、寫註解、甚至debug——全部離線完成。

總結:掌握AI,而不是被AI綁架

今天我們學會了三件事:

  1. Ollama是什麼:一個讓AI模型安裝變得像裝App一樣簡單的工具。
  2. 如何安裝DeepSeek V4 Pro:五分鐘內,從下載到啟動,全部搞定。
  3. 進階調校技巧:調整上下文、設定角色、開啟GPU、整合到開發工具。

這不僅省下了每個月幾百到上千元的API費用,更重要的是——你的資料永遠留在你的電腦裡。對於處理機密文件、個人隱私、商業機密的讀者來說,這點無價。

當然,本地模型不是萬能的。DeepSeek V4 Pro的8B量化版本在某些任務上不如GPT-4o或Claude 3.5 Sonnet。但對於日常寫作、程式輔助、資料分析等80%的任務,它已經綽綽有餘。

現在就打開你的電腦,試著安裝一次。就算失敗了,也只是幾分鐘的事——但如果你成功了,從此你就擁有了一個永遠不會斷線、不會漲價、不會偷看你資料的AI助手。

延伸閱讀

常見問題

Q: 我的電腦只有8GB RAM,跑得動嗎? A: 可以的。選擇4-bit量化版本(如 deepseek-v4-pro:8b-q4_K_M),並將上下文長度調低至8192。在8GB RAM的M1 MacBook Air上,單次回應約需10-15秒,可以正常使用。

Q: 下載的模型檔案很大,會影響電腦效能嗎? A: 模型檔案約4.7GB,安裝後會佔用硬碟空間,但平時不運行時不會消耗記憶體或CPU。只有當你執行 ollama run 時,模型才會載入記憶體。

Q: 繁體中文支援好嗎?DeepSeek V4 Pro會不會只會簡體中文? A: DeepSeek V4 Pro的繁體中文能力相當不錯。你可以在系統提示中明確指定「請用台灣繁體中文回答」,模型就會自動轉換。部分專有名詞可能需要手動修正,但整體表現令人滿意。

Q: 我可以同時跑多個模型嗎? A: 可以,但會消耗大量記憶體。例如同時跑DeepSeek V4 Pro 8B和Qwen3.6 27B,可能需要32GB以上的RAM。建議一次只跑一個模型,或使用Ollama的模型切換功能:ollama run <模型名稱> 即可切換。

Q: 這個方法適合企業使用嗎? A: 非常適合。許多企業因為資料安全考量,禁止員工使用外部AI服務。透過Ollama部署本地模型,可以在完全離線的環境中提供AI能力,同時確保資料不外洩。建議搭配Docker或Kubernetes進行大規模部署。