你還在等雲端算力？| 用 Qwen3.6-35B-A3B 在本地打造 AI 編程副駕

今天 Hacker News 上最火的話題之一，就是阿里雲開源的 Qwen3.6-35B-A3B 模型。它不僅在代理式編程（Agentic Coding）能力上引發熱議，更有開發者實測發現，它在自己的筆記本電腦上畫的「鵜鶘」比 Claude Opus 4.7 還要好。這代表什麼？代表頂級的 AI 編程助手，不再需要昂貴的雲端 API 調用或漫長的等待，現在可以直接在你的本地機器上運行。

對於香港和台灣的開發者、創業者或學生來說，這是一個遊戲規則的改變。想像一下，在沒有穩定網路連線的地鐵裡、在咖啡廳，或是在預算有限的情況下，你依然能擁有一個強大的 AI 編程夥伴，協助你除錯、生成代碼甚至設計架構。本篇教學將手把手帶你完成部署，並分享實用的技巧，讓你立即釋放本地 AI 的生產力。

為什麼 Qwen3.6-35B-A3B 值得你關注？

在深入教學前，先理解這個模型的特別之處。它的後綴「A3B」代表「Agentic, Affordable, Able to run on a Laptop」（具代理能力、經濟實惠、能在筆電上運行）。35B 的參數量經過精煉優化，在保持強大推理能力的同時，對硬體的要求相對親民。根據開源社群的初步評測，它在程式碼生成、邏輯推理和遵循複雜指令方面，表現已接近甚至在某些任務上超越 Claude Opus 等頂級閉源模型。

最重要的是，它是完全開源的。這意味著沒有使用次數限制，沒有隱私洩露到第三方伺服器的風險，所有運算都在你的設備上完成。對於處理專案原始碼、內部工具開發等注重保密性的場景，這點至關重要。

第一步：檢查你的硬體與環境準備

你不需要頂級的遊戲筆電才能運行它。以下是基本與建議配置：

最低配置： 16GB RAM，具有 8GB VRAM 的 NVIDIA GPU（如 GTX 1070, RTX 2060 以上）。純 CPU 推理也可行，但速度會慢許多。
建議配置： 32GB 或以上 RAM，具有 12GB+ VRAM 的 NVIDIA GPU（如 RTX 3060, 4060 或消費級的 4090）。這將獲得流暢的體驗。
系統： Windows (WSL2), macOS (Apple Silicon 晶片表現更佳) 或 Linux 均可。
必備軟體： 安裝最新版的 Python 和 Git。

我們將使用 Ollama 這個目前最簡單易用的工具來管理和運行本地模型。它就像 Docker for LLM，一鍵拉取和運行。

第二步：使用 Ollama 一鍵部署模型

Ollama 極大地簡化了本地運行大模型的過程。

下載並安裝 Ollama： 前往 Ollama 官網下載對應你作業系統的安裝包，並完成安裝。
打開終端機 (Terminal 或 Command Prompt)： 在 Mac 或 Linux 的終端機，或 Windows 的 PowerShell (建議以系統管理員身份運行) 中，輸入以下指令拉取模型：
```
ollama pull qwen2.5:7b
```
（注意：截至發稿時，Qwen3.6-35B-A3B 的專用 Ollama 鏡像可能仍在適配中，官方推薦的 qwen2.5:7b 是輕量且高效的替代入門選擇，用於驗證環境。對於 35B 模型，你可以關注 Ollama 官方庫更新，或使用後文介紹的進階方法。）
運行模型： 拉取完成後，輸入以下指令啟動模型並開始對話：
```
ollama run qwen2.5:7b
```
你會看到模型開始在本地加載，並出現 >>> 提示符號，現在你可以直接用英文或中文向它提問了，例如：「用 Python 寫一個快速排序算法。」

如果 Ollama 鏡像尚未更新，我們可以透過更直接的方式運行最新的 Qwen3.6-35B-A3B。

第三步（進階）：使用 LM Studio 圖形化介面部署

對於不習慣命令列的用戶，LM Studio 提供了完美的圖形化解決方案，特別適合 Windows 和 macOS 用戶。

前往 LM Studio 官網下載並安裝。
打開 LM Studio，在首頁的搜尋欄中輸入 Qwen。
在搜尋結果中找到 Qwen/Qwen2.5-7B-Instruct 或未來會上架的 Qwen3.6-35B-A3B（可關注 Qwen 官方組織下的模型）。點選後下載。
下載完成後，切換到「聊天」頁籤，在右側選擇你剛下載的模型。
點擊左上角的「開始伺服器」。LM Studio 會在本地啟動一個類似於 OpenAI API 的服務端。
你可以直接在 LM Studio 的聊天介面中測試，或者，更強大的是，將這個本地 API 連接到你喜歡的 IDE 擴充功能（如 VSCode 的 Continue 擴充功能、Cursor 編輯器等）。在 IDE 的 AI 助手設定中，將 API 地址設為 http://localhost:1234/v1（LM Studio 預設埠），API 金鑰留空即可。

情境舉例： 香港的初創開發者 Alex，正在開發一個茶餐廳線上點餐系統。他可以在 VSCode 中直接對接本地的 Qwen 模型，詢問：「幫我寫一個 Flask API 端點，用來處理用戶提交的套餐訂單，並計算總價。」模型會根據上下文生成完整且可運行的代碼區塊，所有數據和邏輯都在 Alex 的電腦上處理，無需上傳到任何雲端。

第四步：實戰技巧與效能優化

成功運行後，以下技巧能讓你用得更好：

提示詞技巧： 雖然模型支援中文，但對於複雜的編程任務，使用清晰、結構化的英文提示詞（Prompt）通常能得到更精準的結果。例如，使用「角色設定」：You are a senior Python backend developer. Please write a function that...。
上下文長度： Qwen3.6 系列模型支援長上下文（128K）。這意味著你可以將整個專案的多個檔案內容貼給它分析，讓它進行全域重構建議。
效能調校： 在 LM Studio 或 Ollama 的進階設定中，可以調整 GPU 層數（將更多計算卸載到 GPU 以加速）、批次大小等參數。如果記憶體不足，可以啟用 量化（如 4-bit 或 8-bit）來大幅減少 VRAM 佔用，僅以極小的精度損失換取運行能力。
與現有工作流整合： 將本地模型 API 連接到 Cursor 或 Windsurf 這類 AI 原生編輯器，你就能獲得與使用 GPT-4 幾乎無異的編程輔助體驗，但成本為零，且隱私無憂。

總結：擁抱本地 AI 的自主時代

Qwen3.6-35B-A3B 的開源與高效，標誌著「個人專屬的超級編程助手」時代已經來臨。對港台讀者而言，這不僅是技術上的便利，更是一種戰略選擇：降低對國外雲端服務的依賴、保障數據隱私、並在有限的資源下最大化開發效率。

現在就動手試試吧。從拉取一個小參數模型開始，感受本地 AI 的即時回應。當你習慣了這種「離線也能飛速編程」的體驗，或許就再也回不去了。

常見問題

Q: 我的電腦只有內顯（Integrated Graphics）或 AMD GPU，可以運行嗎？ A: 可以，但主要依賴 CPU 和系統記憶體（RAM）進行推理，速度會較慢。建議至少準備 32GB 以上的系統記憶體來運行 7B 模型，而 35B 模型則需要更大的記憶體。Ollama 和 LM Studio 對 AMD GPU 的支援正在改善中，可查看其官方文件了解最新進展。

Q: 下載的模型檔案有多大？會佔用很多空間嗎？ A: 模型檔案大小取決於精度。以 Qwen2.5-7B 為例，4-bit 量化版本約 4GB，而完整的 Qwen3.6-35B-A3B 模型（未量化）可能超過 70GB。量化版本（如 4-bit 或 8-bit）能在效能損失很小的情況下，將檔案和記憶體佔用減少 50-75%，是個人電腦運行的首選。

Q: 本地 AI 生成代碼的速度，跟使用 ChatGPT 相比如何？ A: 在配備足夠 GPU 的電腦上，小模型（7B）的回應速度可以非常快，幾乎是即時的。大模型（35B）在 GPU 上運行也會比雲端 API 的網路往返延遲更快。但如果僅用 CPU 運行大模型，生成大量代碼時可能需要等待數十秒，速度取決於你的 CPU 效能。

Q: 這個模型適合用來做什麼類型的編程任務？ A: 它非常適合日常編程輔助，包括：解釋代碼、生成函數/單元測試、除錯、程式碼重構、撰寫技術文檔、學習新語言或框架。對於非常複雜、需要頂級模型進行深度規劃的系統架構設計，雲端的頂級模型（如 Claude Opus）可能仍有優勢，但對於 90% 的日常開發任務，本地模型已綽綽有餘。

Q: 如何讓它更好地理解繁體中文的專案需求或註解？ A: Qwen 系列模型對中文支援很好。你可以在提示詞中明確說明：「請用繁體中文回答」或「我的專案註解是繁體中文，請保持一致」。在提供專案上下文時，包含繁體中文的業務邏輯描述，它能很好地理解並生成符合語境的代碼。

🔍 搜尋文章

📬 每週 AI 精選

你還在等雲端算力？| 用 Qwen3.6-35B-A3B 在本地打造 AI 編程副駕

為什麼 Qwen3.6-35B-A3B 值得你關注？

第一步：檢查你的硬體與環境準備

第二步：使用 Ollama 一鍵部署模型

第三步（進階）：使用 LM Studio 圖形化介面部署

第四步：實戰技巧與效能優化

總結：擁抱本地 AI 的自主時代

常見問題

相關文章

找不到東西？|一秒就定位

掃描即轉文字！|PaddleOCR無敵強

一秒找到東西！|NVIDIA神級AI教學