比GPT還省電！|26M模型打敗大廠

開源社群炸了：26M參數打趴大模型

今天HuggingFace上一個名為「Needle」的專案衝上Hacker News榜首，326票、116則討論，科技圈集體陷入狂熱。為什麼？因為Neural Magic團隊做了一件看似不可能的事：他們把Google Gemini 2.5 Pro的工具呼叫（Tool Calling）能力，蒸餾進一個僅有2600萬參數的模型裡。

對比一下數字就知道多瘋狂。Gemini 2.5 Pro的參數量估計在數百億到千億之間，Needle只有26M——縮小了整整兩個數量級。更令人震驚的是，在工具呼叫的準確率測試中，Needle不僅沒有大幅落後，反而在某些場景下超越了原版模型。

這不是學術論文裡的理想數據。這是可以直接部署在邊緣裝置、手機、甚至物聯網晶片上的真實模型。當整個AI產業還在追逐更大、更貴、更耗電的模型時，Neural Magic用實際行動證明：小模型才是企業AI落地的關鍵。

工具呼叫：AI代理的命脈被破解了

要理解Needle的價值，先得搞懂什麼是「工具呼叫」。想像你對AI助手說：「幫我查一下上個月的銷售數據，然後寄一封摘要郵件給團隊。」正常的語言模型只能生成文字回覆，但具備工具呼叫能力的模型可以：

呼叫CRM API獲取數據
格式化數據成郵件內容
呼叫郵件API發送

這就是AI代理（AI Agent）的核心能力——讓模型不只是聊天，而是能操作真實世界的軟體工具。

問題在於，目前具備可靠工具呼叫能力的模型，全都是巨無霸。GPT-4、Claude 3.5、Gemini Pro——這些模型每次呼叫API的成本從0.01美元到0.1美元不等，對於需要大量工具呼叫的企業場景（例如客服自動化、數據處理流水線），成本可以快速累積到每月數萬美元。

Needle的出現直接打破了這個成本結構。26M參數的模型可以在CPU上運行，不需要昂貴的GPU。根據Neural Magic公布的基準測試，Needle在單個CPU核心上的推理速度達到每秒50次工具呼叫，比Gemini Pro快10倍以上。每次呼叫的成本趨近於零——只有電費。

蒸餾技術的終極應用：大廠知識，小廠成本

Neural Magic是怎麼做到的？關鍵在於「蒸餾」（Distillation）。這不是新概念，但他們的做法值得分析。

傳統的模型蒸餾是讓小模型模仿大模型的輸出，但工具呼叫比文字生成複雜得多。工具呼叫需要模型理解API結構、參數類型、回傳格式，還要能處理多步驟的邏輯鏈。Neural Magic的團隊設計了一套專門的蒸餾流程：

第一步：生成高品質訓練數據。 他們用Gemini 2.5 Pro生成了數百萬個工具呼叫的範例，覆蓋了數千種真實世界的API場景——從資料庫查詢、郵件發送、日曆管理到電商後台操作。

第二步：結構化知識轉移。 不同於一般蒸餾只轉移輸出分布，他們還讓小模型學習大模型的「思考過程」——即工具呼叫時的邏輯推理鏈。這讓26M的參數空間被高效利用。

第三步：對抗性驗證。 他們用自動化測試框架不斷測試小模型的工具呼叫結果，發現錯誤後回饋到訓練循環中。這就像讓小模型在實戰中學習，而不是死記硬背。

結果就是一個26M的模型，在工具呼叫的準確率上達到了Gemini 2.5 Pro的97%。在某些特定工具（如SQL查詢生成、API參數填充）上，甚至因為沒有大模型的「幻覺」問題而表現更好。

企業部署AI代理的成本革命

對香港和台灣的企業來說，Needle的意義不僅是技術突破，更是商業模式的重塑。

場景一：客服自動化。 一家電商平台每天處理5000個客服查詢，每個查詢平均需要3次工具呼叫（查訂單、查庫存、發送回覆）。如果用GPT-4 API，每次呼叫成本約0.03美元，一天的API成本就是450美元，一個月超過1.3萬美元。改用Needle本地部署，硬體成本僅需一台2000美元的伺服器，電費忽略不計，一個月省下超過1.2萬美元。

場景二：內部數據分析。 一家金融機構的數據分析團隊每天要寫數百個SQL查詢。用AI代理自動化後，如果用Gemini Pro，每月API費用約8000美元。Needle可以在內部伺服器上運行，無需對外API呼叫，不僅省錢，還解決了數據隱私問題——所有查詢都不離開企業網路。

場景三：IoT邊緣運算。 香港的智慧建築公司需要在大樓內的邊緣裝置上運行AI代理，用來控制空調、照明和安全系統。這些裝置的算力極其有限，無法運行大模型。26M的Needle可以直接嵌入晶片，實現即時的設備控制，無需連網。

為什麼大模型公司不願意做這件事？

這引出了一個有趣的問題：為什麼Google、OpenAI、Anthropic這些公司不自己推出小型工具呼叫模型？

答案很簡單：商業模式不允許。大模型公司靠API收費賺錢，如果他們推出一個成本只要1%的小模型，等於自己打自己。這就是為什麼Needle這樣的開源專案如此重要——它跳過了傳統的商業激勵機制，直接解決了真實需求。

Google不是沒有小型模型。Gemma 4系列有31B的版本，但那是通用模型，沒有針對工具呼叫做優化。Needle證明了：針對特定能力做極致優化的小模型，比通用大模型更適合企業場景。

部署實戰：五分鐘上手Needle

對技術團隊來說，Needle的部署門檻極低。Neural Magic在HuggingFace上提供了ONNX格式的模型，可以直接用PyTorch或ONNX Runtime載入。

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained(
    "neuralmagic/Needle-26M-ToolCalling",
    trust_remote_code=True
)
tokenizer = AutoTokenizer.from_pretrained(
    "neuralmagic/Needle-26M-ToolCalling"
)

tools = [
    {
        "name": "get_weather",
        "description": "取得指定城市的天氣資訊",
        "parameters": {
            "city": {"type": "string", "description": "城市名稱"},
            "unit": {"type": "string", "enum": ["celsius", "fahrenheit"]}
        }
    }
]

response = model.generate_tool_call(
    "請查詢台北今天的溫度，用攝氏顯示",
    tools=tools
)

這段程式碼可以在任何有2GB RAM的機器上運行。不需要GPU，不需要雲端API金鑰，不需要擔心數據外洩。

對台灣和香港企業的啟示

Needle的出現，標誌著AI代理部署進入新階段。對於正在評估AI導入的企業，有以下幾個關鍵啟示：

第一，不要被參數大小迷惑。 過去兩年，業界陷入了「參數越大越好」的迷思。Needle證明，針對特定任務做優化的小模型，效果可以媲美大模型。企業應該先釐清自己的需求——你真的需要一個能寫詩又能寫程式碼的通用模型，還是只需要一個能精準呼叫工具的小模型？

第二，開源生態正在改變力量平衡。 當開源社群能蒸餾出26M的專業模型，企業不再需要被綁在少數幾家大模型公司的API上。這意味著更低的成本、更高的隱私保護、更大的控制權。

第三，本地部署的時代來了。 香港和台灣的企業對數據主權越來越重視。Needle這類模型讓AI代理可以完全在本地運行，數據不外流，符合金融、醫療、政府等行業的合規要求。

第四，工具呼叫是AI代理的基礎設施。 如果你的企業正在規劃AI代理策略，工具呼叫能力應該放在優先順序的第一位。沒有工具呼叫，AI只能是聊天機器人；有了工具呼叫，AI才能真正成為企業的數位員工。

下一步：從26M到更小

Neural Magic已經宣布下一個目標：將Needle優化到10M參數以下，目標是能在智慧手錶和物聯網感測器上運行。同時，他們正在開發多模態版本的Needle，讓小模型也能處理圖像和音訊的工具呼叫。

這不是一個遙遠的未來。Needle的程式碼和模型已經在HuggingFace上開放下載。任何開發者都可以在一個小時內，在自己的系統上部署一個成本趨近於零的AI代理。

當大模型公司還在比誰的參數更多、誰的訓練成本更高時，開源社群已經找到了另一條路：讓AI變小、變快、變便宜，才能真正進入每個人的口袋和每個企業的伺服器。

Needle證明了，在AI的世界裡，小就是美，小就是力量。

🔍 搜尋文章

比GPT還省電！|26M模型打敗大廠

開源社群炸了：26M參數打趴大模型

工具呼叫：AI代理的命脈被破解了

蒸餾技術的終極應用：大廠知識，小廠成本

企業部署AI代理的成本革命

為什麼大模型公司不願意做這件事？

部署實戰：五分鐘上手Needle

對台灣和香港企業的啟示

延伸閱讀

下一步：從26M到更小

🔍 搜尋文章

📬 每週 AI 精選

比GPT還省電！|26M模型打敗大廠

開源社群炸了：26M參數打趴大模型

工具呼叫：AI代理的命脈被破解了

蒸餾技術的終極應用：大廠知識，小廠成本

企業部署AI代理的成本革命

為什麼大模型公司不願意做這件事？

部署實戰：五分鐘上手Needle

對台灣和香港企業的啟示

延伸閱讀

下一步：從26M到更小

相關文章

醫生們慌了？|AI診斷更準！

AI隱私濾鏡｜企業救命丹？

一年省下三億！|怎麼做到的？