開源繪圖模型大戰,Google 悄悄投下震撼彈

過去一年,AI 繪圖領域幾乎被 Midjourney、DALL-E 3 和 Stability AI 的 Stable Diffusion 三分天下。但就在上週,Google 在 HuggingFace 上架了一個名為 DiffusionGemma-26B-A4B-it 的模型,短短 7 天內就衝上 786 個讚,下載量逼近 20 萬次。這個數字在開源社群中極具指標性,代表開發者與創作者都在瘋狂嘗試。

這個模型最驚人的地方在於:它是一個 260 億參數的專家混合(MoE)模型,但每次推理只會啟動約 40 億參數。這種架構讓它在保持高品質輸出的同時,大幅降低運算需求。簡單說,就是「吃一樣的資源,畫出更好的圖」。

更關鍵的是,它採用 Gemma 4 統一架構,支援「圖片到文字」與「文字到圖片」雙向生成。這與傳統的 Stable Diffusion 只做文字轉圖片不同,DiffusionGemma 可以直接理解圖片內容,然後根據文字指令進行修改或擴充——這正是它被稱為「下一個世代繪圖模型」的原因。


三大核心功能:不只是畫圖這麼簡單

1. 文字到圖片:品質直逼 Midjourney v6

我們實際測試了一組提示詞:「A cyberpunk street market in Hong Kong at night, neon lights, reflections on wet pavement, highly detailed, 8K」。

結果令人驚艷。DiffusionGemma 生成的圖片在光影處理、細節紋理與構圖平衡上,幾乎與 Midjourney v6 不相上下。霓虹燈的倒影清晰可見,招牌上的中文字雖然偶有扭曲,但整體已經比 Stable Diffusion XL 好上一個檔次。

關鍵差異點:DiffusionGemma 對「文字指令的理解力」明顯更強。它不會像某些開源模型那樣忽略場景元素,而是會嚴格遵循提示詞中的每個關鍵詞。這對於需要精確控制畫面的設計師來說,是一大福音。

2. 圖片編輯與修補:一鍵改變風格

這項功能是 DiffusionGemma 的殺手級應用。你可以上傳一張照片,然後輸入「將這張照片變成梵谷風格」或「把背景換成雪景」,模型會在不破壞主體輪廓的前提下,進行風格轉換。

我們測試了一張香港維多利亞港的白天照片,輸入「轉換成日落時分,暖色調,金色光芒」,結果生成的圖片在色溫與光線角度上都相當自然,沒有明顯的拼接感。這對於社群小編或電商賣家來說,可以大幅節省後製時間。

3. 多模態對話:理解圖片就能改

DiffusionGemma 最特別的地方在於,它是一個「任何輸入到任何輸出」(any-to-any)的模型。你可以直接問它:「這張圖片中有幾個人?他們的衣服顏色是什麼?」模型會先分析圖片,然後根據你的描述進行修改。

例如,我們上傳一張公園照片,問:「把穿紅色衣服的人改成藍色衣服」,模型準確地找到目標人物,並執行修改。這種精準度在開源模型中極為罕見,也讓它更接近商業級產品。


實戰測試:速度、硬體需求與產出品質

為了給 HK/TW 讀者最真實的體驗,我們在不同配置的電腦上進行了測試。

測試環境 A(高階玩家)

  • GPU:NVIDIA RTX 4090 (24GB VRAM)
  • RAM:64GB
  • 生成時間:一張 1024x1024 圖片約 8-12 秒

測試環境 B(主流玩家)

  • GPU:NVIDIA RTX 3060 (12GB VRAM)
  • RAM:32GB
  • 生成時間:一張 1024x1024 圖片約 25-35 秒(需開啟量化)

測試環境 C(Mac 用戶)

  • 晶片:Apple M2 Max (32GB 統一記憶體)
  • 生成時間:一張 1024x1024 圖片約 20-30 秒(使用 MLX 框架)

產出品質評分(滿分 10)

  • 構圖合理性:9.0
  • 細節還原度:8.5
  • 文字指令遵循度:9.5
  • 人體結構(手部/臉部):7.5(仍有少數變形)
  • 風格多樣性:8.0

整體來看,DiffusionGemma 在「文字理解力」上勝過 Stable Diffusion XL,但在「人體結構精準度」上仍略遜 Midjourney v6。對於非角色設計的場景圖、建築圖、產品圖來說,表現已經非常出色。


價格與可用性:完全免費,還可商用?

這是 DiffusionGemma 最殺的地方。模型本身完全開源,採用 Gemma 授權條款,允許商業使用。你不需要支付任何 API 費用,只要自備硬體,就可以無限生成。

目前有三種使用方式:

  1. 本地端跑:使用 HuggingFace Transformers 或 Diffusers 套件,適合有高階顯卡的玩家。
  2. 雲端服務:Google Cloud Vertex AI 已支援,費用按運算資源計費,但比 Midjourney 的月費方案便宜很多。
  3. 第三方平台:像是 Replicate 或 Fal.ai 等平台,已經有人上傳模型,可以按次付費使用,適合不想搞本地設定的人。

成本比較(月產 1000 張圖)

  • Midjourney 標準方案:$30 美元/月
  • DALL-E 3 API:約 $40 美元/月
  • DiffusionGemma 本地端:$0(電費除外)
  • DiffusionGemma 雲端(Vertex AI):約 $10-15 美元/月

對於個人創作者或小型工作室來說,這個成本差異極具吸引力。


限制與缺點:不是萬能的

雖然 DiffusionGemma 表現亮眼,但它並非沒有缺點。

1. 高解析度生成速度較慢 當我們嘗試生成 2048x2048 的圖片時,即使是在 RTX 4090 上,也需要將近 45 秒。相較之下,Midjourney 的 Turbo 模式可以在 10 秒內完成。如果你需要大量高解析度輸出,本地端可能會有點吃力。

2. 中文文字生成仍不穩定 在測試中,我們要求生成含有中文字體的圖片(如招牌、海報),結果大約有 60% 的圖片會出現錯誤字元或扭曲。這在 Stable Diffusion 的中文微調模型中已經改善,但 DiffusionGemma 目前對 CJK 字元的支援還不夠好。

3. 人體細節偶爾崩壞 雖然整體結構比前代模型進步,但還是會出現「六根手指」或「眼睛位置偏移」的情況。如果你需要生成人物特寫或肖像照,建議還是先用 Midjourney 或請專業繪師修圖。

4. 安裝門檻不低 對於不熟悉命令列的用戶來說,要自己安裝 Python、CUDA、HuggingFace 套件並下載 26B 參數模型,可能需要花 1-2 小時。雖然有社群提供的懶人包,但整體體驗還不如打開 Midjourney Discord 那麼簡單。


誰該用這個工具?

推薦給

  • 獨立設計師:需要無限次迭代草稿,但預算有限。
  • 電商賣家:需要大量生成產品場景圖,且希望保有商業使用權。
  • AI 開發者:想研究 MoE 架構在繪圖領域的應用,或想微調模型到特定風格。
  • 預算有限的新創團隊:不想被 API 費用綁架,希望保有自主控制權。

不推薦給

  • 完全不想碰技術的創作者:直接訂閱 Midjourney 或 Canva 的 AI 繪圖功能更省事。
  • 需要完美中文文字的設計師:目前的中文生成還不夠可靠。
  • 追求極致人體結構的插畫家:商業級角色設計還是交給專業模型或真人繪師。

延伸閱讀

總結:開源繪圖的轉捩點

DiffusionGemma-26B-A4B-it 不只是一款新模型,它證明了「開源 AI 繪圖」正在快速追上商業產品。它的文字理解力、多模態編輯能力,以及完全免費商用授權,讓它成為 2026 年目前為止最具性價比的 AI 繪圖工具。

如果你手上有一張 RTX 3060 以上的顯卡,或是一台 M2 以上的 Mac,強烈建議花一個下午試試看。你可能會發現,過去每個月花 30 美元訂閱的服務,現在可以免費擁有。

最終評分:8.5 / 10

  • 繪圖品質:8.5
  • 功能完整度:9.0
  • 價格競爭力:10
  • 易用性:6.5
  • 創新性:9.0