38T訓練量?|液體AI顛覆規則
一、液體AI的震撼彈:38T tokens的逆襲
2026年5月30日,Liquid AI 正式開源了其最新力作——LFM 2.5-8B-A1B 混合專家模型(MoE)。這款模型僅使用了 38T tokens 的訓練數據,卻在多項基準測試中擊敗了 Llama 3.1 70B、Qwen 2.5 32B 等參數量高出數倍的對手。消息一經公佈,立刻在 HuggingFace 上獲得超過 200 個讚好,並在 Hacker News 引發熱議,討論串超過 120 分。
更令人驚訝的是,這款模型並非傳統的 Transformer 架構,而是基於 Liquid AI 獨家研發的 液體神經網絡(Liquid Neural Networks)。這項技術最早源自 MIT 的研究,旨在讓模型在推理時擁有更高的計算效率,同時保留對動態環境的適應能力。
對HK/TW讀者的意義: 在算力昂貴、GPU 供應緊張的時代,一款訓練成本更低、推理效率更高的模型,意味著中小型企業甚至個人開發者都有機會部署高品質的 AI 應用。這不僅是技術上的突破,更是商業模式的顛覆。
二、技術亮點:MoE + 液體神經網絡的化學反應
2.1 混合專家架構(MoE)的極致壓縮
LFM 2.5-8B-A1B 採用了 8B 總參數、1B 活躍參數的 MoE 設計。這意味著每次推理時,模型只會激活其中一小部分的專家網絡,大幅降低計算資源需求。相比之下,Llama 3.1 70B 每次推理都需要調用全部 70B 參數,能耗和延遲都高出數倍。
實際測試數據:
- 在 MMLU-Pro 基準測試中,LFM 2.5-8B-A1B 獲得 62.8% 的準確率,超越 Llama 3.1 70B 的 61.3%
- 在數學推理測試 MATH-500 中,得分高達 90.5%,與 GPT-4o 持平
- 在程式碼生成測試 HumanEval+ 中,通過率達 82.7%,超越 DeepSeek-V2 的 78.5%
這些數據說明,液體神經網絡的動態路由機制,讓模型能夠在更少的參數下,達到甚至超越大模型的表現。
2.2 液體神經網絡的獨特優勢
傳統 Transformer 模型在訓練完成後,權重是固定的。但液體神經網絡的核心在於其 連續時間動態系統——模型不僅學到了靜態的知識,還學會了如何根據輸入動態調整計算路徑。這使得 LFM 2.5 在處理長文本、多輪對話時,表現出更強的連貫性和適應性。
實際應用場景:
- 客戶服務機器人: 能夠根據用戶情緒變化,即時調整回應策略
- 程式碼除錯: 當遇到複雜的 bug 時,模型會自動切換到更深入的推理模式
- 金融分析: 處理時間序列數據時,能捕捉到傳統模型忽略的細微趨勢
2.3 訓練效率的革命
Liquid AI 在技術報告中透露,LFM 2.5 的訓練成本僅為同等性能模型的 1/5。這得益於液體神經網絡的稀疏激活特性,以及創新的數據篩選策略——他們只選用了最高質量的 38T tokens,而非盲目堆積數據。
對比分析:
| 模型 | 參數量 | 訓練數據量 | MMLU-Pro |
|---|---|---|---|
| LFM 2.5-8B-A1B | 8B (1B 活躍) | 38T | 62.8% |
| Llama 3.1 70B | 70B | 15T | 61.3% |
| Qwen 2.5 32B | 32B | 18T | 60.5% |
| DeepSeek-V2 | 236B (21B 活躍) | 8.1T | 61.1% |
從表中可見,LFM 2.5 以最少的活躍參數和合理的訓練數據量,達到了業界領先水平。
三、開源策略與生態佈局
3.1 Apache 2.0 授權的深意
Liquid AI 選擇以 Apache 2.0 授權開源 LFM 2.5,這意味著任何個人或企業都可以自由下載、修改、商用。這與 Meta 的 Llama 系列(需申請授權)和 OpenAI 的封閉生態形成鮮明對比。
對HK/TW開發者的影響:
- 本地化部署: 無需依賴 API 調用,可在自己的伺服器上運行,數據安全有保障
- 微調與適配: 支援 LoRA、QLoRA 等常見微調技術,可針對粵語、繁體中文進行優化
- 邊緣計算: 1B 活躍參數的設計,讓模型能在消費級 GPU(如 RTX 4090)上流暢運行
3.2 生態工具的完善
Liquid AI 同時推出了配套的推理框架 Liquid Engine,支援動態批次處理、量化推理(INT8/FP8)、以及多 GPU 分佈式推理。此外,模型已上架 HuggingFace,並提供 GGUF 格式,方便在 llama.cpp、Ollama 等工具中使用。
快速部署指南:
- 下載模型:
git clone https://huggingface.co/LiquidAI/LFM2.5-8B-A1B - 安裝 Liquid Engine:
pip install liquid-engine - 啟動推理:
liquid-engine run --model LFM2.5-8B-A1B --quantize int8
3.3 與競爭對手的差異化
目前市場上主要的輕量級 MoE 模型包括 Qwen 2.5-32B-A2B、DeepSeek-V2-Lite 等。LFM 2.5 的差異化在於:
- 動態路由機制: 液體神經網絡讓專家選擇更智能,而非簡單的 Top-K 選取
- 低延遲: 1B 活躍參數的推理速度比同類模型快 2-3 倍
- 長上下文支援: 原生支援 128K tokens 上下文窗口,適合處理長文檔
四、市場影響:誰會受益?
4.1 中小企業的AI民主化
過去,部署一個高性能 AI 模型需要數百萬美元的 GPU 投資。如今,LFM 2.5 讓一家普通初創公司只需一台 RTX 4090(約 HK$15,000 / NT$60,000)就能運行媲美 GPT-4 的模型。這將加速 AI 在零售、物流、客服等行業的落地。
案例: 香港一家物流公司使用 LFM 2.5 開發了智能排班系統,將配送效率提升 23%,而硬件成本僅為原計劃的 1/10。
4.2 學術研究的福音
對於大學和研究機構,LFM 2.5 的開源意味著可以進行更深入的模型分析、可解釋性研究。台灣的清華大學、香港科技大學等已表示有興趣將液體神經網絡應用於生物信息學和語言學研究。
4.3 潛在風險與挑戰
儘管 LFM 2.5 表現出色,但仍存在一些限制:
- 中文能力: 訓練數據以英文為主,繁體中文的表現可能不如 Qwen 系列
- 多模態支援: 目前僅限文本,無法處理圖像或音頻
- 生態成熟度: 相比 Llama 和 Qwen,周邊工具和社區支援仍在發展中
延伸閱讀
- Waymo 週付費叫車突破50萬次 無人駕駛時代加速來臨
- Apple 官宣 WWDC 2026:AI 成絕對主角,iOS 27 與全新 Siri 即將登場
- NVIDIA GTC 2026:AI 代理時代全面來臨,Groq 3 晶片震撼登場
五、下一步觀察:液體AI的未來路線圖
Liquid AI 已透露將在今年下半年推出 LFM 3.0,預計參數量將提升至 30B(活躍參數 5B),同時加入多模態能力。更重要的是,他們正在開發專用的 液體神經網絡芯片,目標是將推理功耗降低 90%。
對投資者的啟示: Liquid AI 的估值在最新一輪融資中已達到 45 億美元,背後投資者包括三星、LG 和 紅杉資本。如果液體神經網絡能夠在實際應用中證明其優勢,這可能成為下一個 AI 基礎設施的標準。
對開發者的建議: 立即下載 LFM 2.5 進行測試,特別是在邊緣計算和實時推理場景中。同時關注 Liquid AI 的官方文檔和社區,因為液體神經網絡的編程模型與傳統 Transformer 有顯著差異,需要時間學習。
總結: LFM 2.5-8B-A1B 的出現,標誌著 AI 模型從「參數軍備競賽」轉向「效率革命」。對於資源有限的 HK/TW 市場,這無疑是一個值得密切關注的技術趨勢。無論你是開發者、創業者還是投資人,現在就是深入了解液體AI的最佳時機。