開源界又來一顆核彈?Sulphur-2 影片生成模型實測
上週 HuggingFace 出現一個現象級模型——Sulphur-2-base。短短一週內獲得超過 839 個讚、53 萬次下載,直接把其他影片生成模型甩在後面。到底這款號稱「開源版 Sora」的工具,真有那麼神嗎?
身為一個每天跟 AI 模型打交道的編輯,我決定親自下載、安裝、測試一條龍,用最白話的方式告訴你:Sulphur-2 到底是真功夫還是吹出來的?
什麼是 Sulphur-2?一句話講清楚
Sulphur-2 是由 SulphurAI 團隊開發的開源文字轉影片(Text-to-Video)模型。它最厲害的地方是:完全免費、可商用、而且在你自己的電腦上就能跑。
不像 OpenAI 的 Sora 或 Google 的 Veo,這些大廠的模型只能透過雲端 API 使用,還要按秒收費。Sulphur-2 直接開源在 HuggingFace 上,你想怎麼用就怎麼用,不用擔心被抽成或被限制。
目前 Sulphur-2 支援兩種格式:
- Diffusers:適合有 Python 經驗的開發者,可以深度客製化
- GGUF:適合一般使用者,搭配 Ollama 或 LM Studio 就能一鍵運作
安裝其實不難:5分鐘就能跑起來
很多人聽到「開源模型」就怕了,覺得要裝一堆東西。放心,Sulphur-2 的安裝流程比你想像中簡單。
方法一:用 Diffusers(適合有程式基礎)
打開終端機,輸入:
pip install diffusers transformers torch accelerate
然後下載模型:
from diffusers import DiffusionPipeline
import torch
pipe = DiffusionPipeline.from_pretrained(
"SulphurAI/Sulphur-2-base",
torch_dtype=torch.float16
)
pipe.to("cuda")
prompt = "一隻貓在東京街頭漫步,賽博龐克風格,霓虹燈光"
video = pipe(prompt, num_frames=24, height=480, width=720).frames[0]
大概 30 秒到 1 分鐘,你就能看到影片生成出來了。以我的 RTX 4090 為例,24 幀的影片大概花了 45 秒。
方法二:用 GGUF + Ollama(適合一般使用者)
- 先安裝 Ollama
- 下載 Sulphur-2 的 GGUF 版本
- 在 Ollama 中載入模型,然後用網頁介面操作
這個方法不用寫程式,全部靠滑鼠點一點就能用,非常適合只想試試看的人。
實測結果:驚喜多還是失望多?
我準備了 5 個不同的提示詞,從簡單到複雜,測試 Sulphur-2 的極限。
測試 1:簡單場景
提示詞:「一個人在沙灘上散步,夕陽,浪花拍打」
結果: 畫面流暢度出乎意料地好。人物的動作自然,浪花的細節也很到位。雖然解析度只有 720p,但整體感覺不像 AI 生成的,反而像用手機拍的影片。
評分: 4.5/5
測試 2:動態場景
提示詞:「賽車在賽道上奔馳,高速過彎,輪胎冒煙」
結果: 這裡開始出現問題。賽車的形狀在前幾幀還算正常,但到了後半段,車身開始扭曲,輪胎的煙霧也變得很奇怪。高速動態場景對 Sulphur-2 來說還是太吃力了。
評分: 2.5/5
測試 3:人物表情
提示詞:「一位亞洲女性微笑,然後大笑,背景是辦公室」
結果: 人物表情的過渡很自然,從微笑到大笑的過程沒有出現詭異的變形。這點讓我蠻驚訝的,很多開源模型在處理人臉時會崩掉,但 Sulphur-2 表現得不錯。
評分: 4/5
測試 4:複雜場景
提示詞:「一隻狗在公園裡追飛盤,旁邊有小孩在玩耍,樹葉隨風飄落」
結果: 這個測試暴露了 Sulphur-2 的短板。狗和小孩的動作開始不同步,樹葉的飄落看起來像靜止的。多物體互動對目前的 Sulphur-2 來說還是太難了。
評分: 2/5
測試 5:文字生成
提示詞:「一個黑板上面寫著『Hello World』,字體清楚」
結果: 跟許多影片生成模型一樣,Sulphur-2 在處理文字時幾乎全軍覆沒。黑板上出現的是一堆亂碼,完全看不出是「Hello World」。這點是目前所有影片生成模型的通病。
評分: 1/5
優點 vs 缺點:一張表看懂
| 優點 | 缺點 |
|---|---|
| 完全免費開源 | 高速動態場景表現差 |
| 可離線使用,保護隱私 | 多物體互動容易崩潰 |
| 安裝簡單,門檻低 | 無法生成清晰文字 |
| 人物表情自然 | 解析度只有 720p |
| 支援 Diffusers 和 GGUF | 需要高階顯卡(建議 RTX 3080 以上) |
| 可商用,無版權問題 | 生成速度較慢(約 1 分鐘/24 幀) |
誰適合用 Sulphur-2?
✅ 推薦給這些人
- 內容創作者:需要快速生成 B-roll 素材、背景影片,Sulphur-2 的簡單場景效果非常好
- 獨立開發者:想在自己的專案中加入影片生成功能,又不想花錢買 API
- 研究人員:想了解文字轉影片模型的運作原理,開源程式碼可以任意修改
- 隱私敏感用戶:不放心把資料傳到雲端,Sulphur-2 可以完全離線使用
❌ 不推薦給這些人
- 專業影片製作者:如果要製作商業級廣告或電影,Sulphur-2 的品質還不夠
- 需要高解析度的人:目前只支援 720p,不適合大螢幕播放
- 想生成複雜動態場景的人:多物體互動、高速運動還是會崩
跟其他模型比一比
| 模型 | 價格 | 品質 | 速度 | 開源 | 可離線 |
|---|---|---|---|---|---|
| Sulphur-2 | 免費 | 中等 | 中等 | ✅ | ✅ |
| OpenAI Sora | 按秒計費 | 高 | 快 | ❌ | ❌ |
| Google Veo | 按秒計費 | 高 | 快 | ❌ | ❌ |
| Stable Video Diffusion | 免費 | 低 | 慢 | ✅ | ✅ |
| Runway Gen-3 | 月費制 | 高 | 快 | ❌ | ❌ |
可以看出 Sulphur-2 最大的優勢就是免費 + 開源 + 可離線,但在品質和速度上還無法跟商業產品競爭。
定價:真的完全不用錢
Sulphur-2 採用 Apache 2.0 授權,完全免費且可商用。你不需要付任何授權費,生成的影片版權也歸你所有。
唯一的成本是你的硬體:
- 最低需求:RTX 3060 12GB VRAM,可以跑但很慢
- 建議配置:RTX 4090 24GB VRAM,流暢體驗
- 雲端方案:如果用 Google Colab Pro(約 $10 美金/月),也可以跑
未來展望
SulphurAI 團隊已經透露,下一代 Sulphur-3 正在開發中,重點改善:
- 支援 1080p 甚至 4K 解析度
- 改善高速動態場景的穩定性
- 加入文字生成能力
- 支援更長的影片(目前最多 5 秒)
以開源社群的速度,我猜半年內就能看到這些改進。
延伸閱讀
- Claude 4.7悄悄改了什麼?| 系統提示詞的『隱形戰爭』開打
- Windsurf 評測:Cascade 代理系統讓 AI 編程真正好用,百萬開發者的新選擇
- 長駐編程代理總是失憶?| 開源工具 Remoroo 實測報告
總結:值得下載嗎?
如果你符合以下條件,強烈推薦下載試試:
- 想免費體驗 AI 影片生成
- 需要簡單場景的素材
- 重視隱私不想用雲端服務
- 對開源技術感興趣
如果你需要商業級品質,或想生成複雜動態場景,建議再等幾個月,等 Sulphur-3 出來再說。
但無論如何,Sulphur-2 的出現代表開源影片生成技術的一大步。以前只有大公司玩得起的技術,現在每個人都能在自己的電腦上跑。這才是 AI 真正 democratization 的開始。
實用連結:
你試過 Sulphur-2 了嗎?歡迎在留言區分享你的生成結果!