開源界又來一顆核彈?Sulphur-2 影片生成模型實測

上週 HuggingFace 出現一個現象級模型——Sulphur-2-base。短短一週內獲得超過 839 個讚、53 萬次下載,直接把其他影片生成模型甩在後面。到底這款號稱「開源版 Sora」的工具,真有那麼神嗎?

身為一個每天跟 AI 模型打交道的編輯,我決定親自下載、安裝、測試一條龍,用最白話的方式告訴你:Sulphur-2 到底是真功夫還是吹出來的?

什麼是 Sulphur-2?一句話講清楚

Sulphur-2 是由 SulphurAI 團隊開發的開源文字轉影片(Text-to-Video)模型。它最厲害的地方是:完全免費、可商用、而且在你自己的電腦上就能跑

不像 OpenAI 的 Sora 或 Google 的 Veo,這些大廠的模型只能透過雲端 API 使用,還要按秒收費。Sulphur-2 直接開源在 HuggingFace 上,你想怎麼用就怎麼用,不用擔心被抽成或被限制。

目前 Sulphur-2 支援兩種格式:

  • Diffusers:適合有 Python 經驗的開發者,可以深度客製化
  • GGUF:適合一般使用者,搭配 Ollama 或 LM Studio 就能一鍵運作

安裝其實不難:5分鐘就能跑起來

很多人聽到「開源模型」就怕了,覺得要裝一堆東西。放心,Sulphur-2 的安裝流程比你想像中簡單。

方法一:用 Diffusers(適合有程式基礎)

打開終端機,輸入:

pip install diffusers transformers torch accelerate

然後下載模型:

from diffusers import DiffusionPipeline
import torch

pipe = DiffusionPipeline.from_pretrained(
    "SulphurAI/Sulphur-2-base",
    torch_dtype=torch.float16
)
pipe.to("cuda")

prompt = "一隻貓在東京街頭漫步,賽博龐克風格,霓虹燈光"
video = pipe(prompt, num_frames=24, height=480, width=720).frames[0]

大概 30 秒到 1 分鐘,你就能看到影片生成出來了。以我的 RTX 4090 為例,24 幀的影片大概花了 45 秒。

方法二:用 GGUF + Ollama(適合一般使用者)

  1. 先安裝 Ollama
  2. 下載 Sulphur-2 的 GGUF 版本
  3. 在 Ollama 中載入模型,然後用網頁介面操作

這個方法不用寫程式,全部靠滑鼠點一點就能用,非常適合只想試試看的人。

實測結果:驚喜多還是失望多?

我準備了 5 個不同的提示詞,從簡單到複雜,測試 Sulphur-2 的極限。

測試 1:簡單場景

提示詞:「一個人在沙灘上散步,夕陽,浪花拍打」

結果: 畫面流暢度出乎意料地好。人物的動作自然,浪花的細節也很到位。雖然解析度只有 720p,但整體感覺不像 AI 生成的,反而像用手機拍的影片。

評分: 4.5/5

測試 2:動態場景

提示詞:「賽車在賽道上奔馳,高速過彎,輪胎冒煙」

結果: 這裡開始出現問題。賽車的形狀在前幾幀還算正常,但到了後半段,車身開始扭曲,輪胎的煙霧也變得很奇怪。高速動態場景對 Sulphur-2 來說還是太吃力了。

評分: 2.5/5

測試 3:人物表情

提示詞:「一位亞洲女性微笑,然後大笑,背景是辦公室」

結果: 人物表情的過渡很自然,從微笑到大笑的過程沒有出現詭異的變形。這點讓我蠻驚訝的,很多開源模型在處理人臉時會崩掉,但 Sulphur-2 表現得不錯。

評分: 4/5

測試 4:複雜場景

提示詞:「一隻狗在公園裡追飛盤,旁邊有小孩在玩耍,樹葉隨風飄落」

結果: 這個測試暴露了 Sulphur-2 的短板。狗和小孩的動作開始不同步,樹葉的飄落看起來像靜止的。多物體互動對目前的 Sulphur-2 來說還是太難了。

評分: 2/5

測試 5:文字生成

提示詞:「一個黑板上面寫著『Hello World』,字體清楚」

結果: 跟許多影片生成模型一樣,Sulphur-2 在處理文字時幾乎全軍覆沒。黑板上出現的是一堆亂碼,完全看不出是「Hello World」。這點是目前所有影片生成模型的通病。

評分: 1/5

優點 vs 缺點:一張表看懂

優點缺點
完全免費開源高速動態場景表現差
可離線使用,保護隱私多物體互動容易崩潰
安裝簡單,門檻低無法生成清晰文字
人物表情自然解析度只有 720p
支援 Diffusers 和 GGUF需要高階顯卡(建議 RTX 3080 以上)
可商用,無版權問題生成速度較慢(約 1 分鐘/24 幀)

誰適合用 Sulphur-2?

✅ 推薦給這些人

  1. 內容創作者:需要快速生成 B-roll 素材、背景影片,Sulphur-2 的簡單場景效果非常好
  2. 獨立開發者:想在自己的專案中加入影片生成功能,又不想花錢買 API
  3. 研究人員:想了解文字轉影片模型的運作原理,開源程式碼可以任意修改
  4. 隱私敏感用戶:不放心把資料傳到雲端,Sulphur-2 可以完全離線使用

❌ 不推薦給這些人

  1. 專業影片製作者:如果要製作商業級廣告或電影,Sulphur-2 的品質還不夠
  2. 需要高解析度的人:目前只支援 720p,不適合大螢幕播放
  3. 想生成複雜動態場景的人:多物體互動、高速運動還是會崩

跟其他模型比一比

模型價格品質速度開源可離線
Sulphur-2免費中等中等
OpenAI Sora按秒計費
Google Veo按秒計費
Stable Video Diffusion免費
Runway Gen-3月費制

可以看出 Sulphur-2 最大的優勢就是免費 + 開源 + 可離線,但在品質和速度上還無法跟商業產品競爭。

定價:真的完全不用錢

Sulphur-2 採用 Apache 2.0 授權,完全免費且可商用。你不需要付任何授權費,生成的影片版權也歸你所有。

唯一的成本是你的硬體:

  • 最低需求:RTX 3060 12GB VRAM,可以跑但很慢
  • 建議配置:RTX 4090 24GB VRAM,流暢體驗
  • 雲端方案:如果用 Google Colab Pro(約 $10 美金/月),也可以跑

未來展望

SulphurAI 團隊已經透露,下一代 Sulphur-3 正在開發中,重點改善:

  • 支援 1080p 甚至 4K 解析度
  • 改善高速動態場景的穩定性
  • 加入文字生成能力
  • 支援更長的影片(目前最多 5 秒)

以開源社群的速度,我猜半年內就能看到這些改進。

延伸閱讀

總結:值得下載嗎?

如果你符合以下條件,強烈推薦下載試試

  • 想免費體驗 AI 影片生成
  • 需要簡單場景的素材
  • 重視隱私不想用雲端服務
  • 對開源技術感興趣

如果你需要商業級品質,或想生成複雜動態場景,建議再等幾個月,等 Sulphur-3 出來再說。

但無論如何,Sulphur-2 的出現代表開源影片生成技術的一大步。以前只有大公司玩得起的技術,現在每個人都能在自己的電腦上跑。這才是 AI 真正 democratization 的開始。

實用連結:

你試過 Sulphur-2 了嗎?歡迎在留言區分享你的生成結果!