今天 Hacker News 上最火的話題之一,就是阿里雲開源的 Qwen3.6-35B-A3B 模型。它不僅在代理式編程(Agentic Coding)能力上引發熱議,更有開發者實測發現,它在自己的筆記本電腦上畫的「鵜鶘」比 Claude Opus 4.7 還要好。這代表什麼?代表頂級的 AI 編程助手,不再需要昂貴的雲端 API 調用或漫長的等待,現在可以直接在你的本地機器上運行。

對於香港和台灣的開發者、創業者或學生來說,這是一個遊戲規則的改變。想像一下,在沒有穩定網路連線的地鐵裡、在咖啡廳,或是在預算有限的情況下,你依然能擁有一個強大的 AI 編程夥伴,協助你除錯、生成代碼甚至設計架構。本篇教學將手把手帶你完成部署,並分享實用的技巧,讓你立即釋放本地 AI 的生產力。

為什麼 Qwen3.6-35B-A3B 值得你關注?

在深入教學前,先理解這個模型的特別之處。它的後綴「A3B」代表「Agentic, Affordable, Able to run on a Laptop」(具代理能力、經濟實惠、能在筆電上運行)。35B 的參數量經過精煉優化,在保持強大推理能力的同時,對硬體的要求相對親民。根據開源社群的初步評測,它在程式碼生成、邏輯推理和遵循複雜指令方面,表現已接近甚至在某些任務上超越 Claude Opus 等頂級閉源模型。

最重要的是,它是完全開源的。這意味著沒有使用次數限制,沒有隱私洩露到第三方伺服器的風險,所有運算都在你的設備上完成。對於處理專案原始碼、內部工具開發等注重保密性的場景,這點至關重要。

第一步:檢查你的硬體與環境準備

你不需要頂級的遊戲筆電才能運行它。以下是基本與建議配置:

  • 最低配置: 16GB RAM,具有 8GB VRAM 的 NVIDIA GPU(如 GTX 1070, RTX 2060 以上)。純 CPU 推理也可行,但速度會慢許多。
  • 建議配置: 32GB 或以上 RAM,具有 12GB+ VRAM 的 NVIDIA GPU(如 RTX 3060, 4060 或消費級的 4090)。這將獲得流暢的體驗。
  • 系統: Windows (WSL2), macOS (Apple Silicon 晶片表現更佳) 或 Linux 均可。
  • 必備軟體: 安裝最新版的 PythonGit

我們將使用 Ollama 這個目前最簡單易用的工具來管理和運行本地模型。它就像 Docker for LLM,一鍵拉取和運行。

第二步:使用 Ollama 一鍵部署模型

Ollama 極大地簡化了本地運行大模型的過程。

  1. 下載並安裝 Ollama: 前往 Ollama 官網 下載對應你作業系統的安裝包,並完成安裝。
  2. 打開終端機 (Terminal 或 Command Prompt): 在 Mac 或 Linux 的終端機,或 Windows 的 PowerShell (建議以系統管理員身份運行) 中,輸入以下指令拉取模型:
    ollama pull qwen2.5:7b
    (注意:截至發稿時,Qwen3.6-35B-A3B 的專用 Ollama 鏡像可能仍在適配中,官方推薦的 qwen2.5:7b 是輕量且高效的替代入門選擇,用於驗證環境。對於 35B 模型,你可以關注 Ollama 官方庫更新,或使用後文介紹的進階方法。)
  3. 運行模型: 拉取完成後,輸入以下指令啟動模型並開始對話:
    ollama run qwen2.5:7b
    你會看到模型開始在本地加載,並出現 >>> 提示符號,現在你可以直接用英文或中文向它提問了,例如:「用 Python 寫一個快速排序算法。」

如果 Ollama 鏡像尚未更新,我們可以透過更直接的方式運行最新的 Qwen3.6-35B-A3B。

第三步(進階):使用 LM Studio 圖形化介面部署

對於不習慣命令列的用戶,LM Studio 提供了完美的圖形化解決方案,特別適合 Windows 和 macOS 用戶。

  1. 前往 LM Studio 官網 下載並安裝。
  2. 打開 LM Studio,在首頁的搜尋欄中輸入 Qwen
  3. 在搜尋結果中找到 Qwen/Qwen2.5-7B-Instruct 或未來會上架的 Qwen3.6-35B-A3B(可關注 Qwen 官方組織下的模型)。點選後下載。
  4. 下載完成後,切換到「聊天」頁籤,在右側選擇你剛下載的模型。
  5. 點擊左上角的「開始伺服器」。LM Studio 會在本地啟動一個類似於 OpenAI API 的服務端。
  6. 你可以直接在 LM Studio 的聊天介面中測試,或者,更強大的是,將這個本地 API 連接到你喜歡的 IDE 擴充功能(如 VSCode 的 Continue 擴充功能、Cursor 編輯器等)。在 IDE 的 AI 助手設定中,將 API 地址設為 http://localhost:1234/v1(LM Studio 預設埠),API 金鑰留空即可。

情境舉例: 香港的初創開發者 Alex,正在開發一個茶餐廳線上點餐系統。他可以在 VSCode 中直接對接本地的 Qwen 模型,詢問:「幫我寫一個 Flask API 端點,用來處理用戶提交的套餐訂單,並計算總價。」模型會根據上下文生成完整且可運行的代碼區塊,所有數據和邏輯都在 Alex 的電腦上處理,無需上傳到任何雲端。

第四步:實戰技巧與效能優化

成功運行後,以下技巧能讓你用得更好:

  • 提示詞技巧: 雖然模型支援中文,但對於複雜的編程任務,使用清晰、結構化的英文提示詞(Prompt)通常能得到更精準的結果。例如,使用「角色設定」:You are a senior Python backend developer. Please write a function that...
  • 上下文長度: Qwen3.6 系列模型支援長上下文(128K)。這意味著你可以將整個專案的多個檔案內容貼給它分析,讓它進行全域重構建議。
  • 效能調校: 在 LM Studio 或 Ollama 的進階設定中,可以調整 GPU 層數(將更多計算卸載到 GPU 以加速)、批次大小等參數。如果記憶體不足,可以啟用 量化(如 4-bit 或 8-bit)來大幅減少 VRAM 佔用,僅以極小的精度損失換取運行能力。
  • 與現有工作流整合: 將本地模型 API 連接到 CursorWindsurf 這類 AI 原生編輯器,你就能獲得與使用 GPT-4 幾乎無異的編程輔助體驗,但成本為零,且隱私無憂。

總結:擁抱本地 AI 的自主時代

Qwen3.6-35B-A3B 的開源與高效,標誌著「個人專屬的超級編程助手」時代已經來臨。對港台讀者而言,這不僅是技術上的便利,更是一種戰略選擇:降低對國外雲端服務的依賴、保障數據隱私、並在有限的資源下最大化開發效率。

現在就動手試試吧。從拉取一個小參數模型開始,感受本地 AI 的即時回應。當你習慣了這種「離線也能飛速編程」的體驗,或許就再也回不去了。

常見問題

Q: 我的電腦只有內顯(Integrated Graphics)或 AMD GPU,可以運行嗎? A: 可以,但主要依賴 CPU 和系統記憶體(RAM)進行推理,速度會較慢。建議至少準備 32GB 以上的系統記憶體來運行 7B 模型,而 35B 模型則需要更大的記憶體。Ollama 和 LM Studio 對 AMD GPU 的支援正在改善中,可查看其官方文件了解最新進展。

Q: 下載的模型檔案有多大?會佔用很多空間嗎? A: 模型檔案大小取決於精度。以 Qwen2.5-7B 為例,4-bit 量化版本約 4GB,而完整的 Qwen3.6-35B-A3B 模型(未量化)可能超過 70GB。量化版本(如 4-bit 或 8-bit)能在效能損失很小的情況下,將檔案和記憶體佔用減少 50-75%,是個人電腦運行的首選。

Q: 本地 AI 生成代碼的速度,跟使用 ChatGPT 相比如何? A: 在配備足夠 GPU 的電腦上,小模型(7B)的回應速度可以非常快,幾乎是即時的。大模型(35B)在 GPU 上運行也會比雲端 API 的網路往返延遲更快。但如果僅用 CPU 運行大模型,生成大量代碼時可能需要等待數十秒,速度取決於你的 CPU 效能。

Q: 這個模型適合用來做什麼類型的編程任務? A: 它非常適合日常編程輔助,包括:解釋代碼、生成函數/單元測試、除錯、程式碼重構、撰寫技術文檔、學習新語言或框架。對於非常複雜、需要頂級模型進行深度規劃的系統架構設計,雲端的頂級模型(如 Claude Opus)可能仍有優勢,但對於 90% 的日常開發任務,本地模型已綽綽有餘。

Q: 如何讓它更好地理解繁體中文的專案需求或註解? A: Qwen 系列模型對中文支援很好。你可以在提示詞中明確說明:「請用繁體中文回答」或「我的專案註解是繁體中文,請保持一致」。在提供專案上下文時,包含繁體中文的業務邏輯描述,它能很好地理解並生成符合語境的代碼。