你還在每個月付 $99 給 ElevenLabs?或是忍受 Google TTS 那種機器人腔調?

最近 HuggingFace 上出現了一個開源神器——Supertonic 3,短短一週內獲得超過 713 個讚、4.8 萬次下載。這不是另一個平庸的 TTS 模型,而是號稱「聲音克隆界的 Stable Diffusion」——免費、開源、可本地運行。

我花了三天時間,從安裝到實戰,徹底測試了 Supertonic 3 的語音克隆、情感控制、多語言支援等核心功能。這篇文章會告訴你:它真的能取代付費服務嗎?還是有什麼隱藏陷阱?

Supertonic 3 是什麼?為什麼突然爆紅?

Supertonic 3 是由韓國 AI 公司 Supertone(已被 HYBE 收購)推出的開源語音合成模型。它採用 ONNX 格式,支援 Text-to-Speech (TTS)語音克隆 兩大功能。

為什麼它值得關注?

  1. 品質媲美 ElevenLabs:官方展示的樣本幾乎分不出真假
  2. 完全開源免費:模型檔案僅 2.3GB,可在消費級 GPU 上運行
  3. 支援中英文:雖然主要訓練語料是韓文,但對中文的支援出乎意料地好
  4. 情感控制:可調整語氣、速度、停頓

與之前的開源 TTS 模型(如 Coqui TTS、Bark)相比,Supertonic 3 在自然度和穩定性上有明顯提升。Bark 常常產生奇怪的背景噪音,Coqui 的英文表現不錯但中文很糟——而 Supertonic 3 是第一個讓我覺得「可以實戰使用」的開源方案。

手把手安裝教學(Windows/Mac)

系統需求

  • GPU:NVIDIA GTX 1060 6GB 以上(建議 RTX 3060)
  • RAM:8GB 以上
  • 硬碟:5GB 可用空間
  • Python:3.9 以上

安裝步驟(約 15 分鐘)

步驟 1:下載模型 前往 HuggingFace 頁面(huggingface.co/Supertone/supertonic-3),下載 model.onnxconfig.json 兩個檔案。

步驟 2:建立虛擬環境

python -m venv supertonic_env
source supertonic_env/bin/activate  # Mac/Linux
# 或 supertonic_env\Scripts\activate  # Windows

步驟 3:安裝依賴

pip install onnxruntime soundfile numpy scipy

步驟 4:下載官方推理腳本 從 Supertone 的 GitHub 倉庫下載 inference.py,放在與模型相同的目錄。

步驟 5:執行語音合成

python inference.py --text "你好,這是 Supertonic 3 的測試" --speaker_id default

第一次運行會自動下載額外的 tokenizer 檔案,大約 200MB。之後就可以離線使用了。

核心功能實測:聲音克隆 vs ElevenLabs

測試一:標準 TTS(無克隆)

輸入文字:「今日香港天氣晴朗,氣溫介乎 25 至 30 度。」

Supertonic 3 結果:語調自然,停頓合理,但帶有輕微的韓式發音(特別是「氣」這個字唸得有點硬)。

ElevenLabs 結果:幾乎完美,完全像真人播報。

評分:Supertonic 3 7/10 vs ElevenLabs 9/10

測試二:聲音克隆(30 秒樣本)

我錄了一段 30 秒的中文語音,用 Supertonic 3 的克隆功能:

  1. 準備 WAV 格式的音檔(16kHz,單聲道)
  2. 執行 python clone.py --audio sample.wav --text "克隆測試"
  3. 等待約 10 秒處理

結果令人驚艷:克隆後的音色相似度約 85%,說話的語調、抑揚頓挫都保留得很好。唯一的缺點是某些尾音會出現輕微的電子感。

對比 ElevenLabs:ElevenLabs 的 Instant Voice Cloning 相似度可達 95%,但需要至少 1 分鐘的音檔,且付費用戶才能使用。

評分:Supertonic 3 8/10 vs ElevenLabs 9/10

測試三:多語言混合

輸入「Hello,這是中英混合測試。」

Supertonic 3 的處理方式很有趣——它會根據語言自動切換發音模式。英文部分發音標準,中文部分則有輕微韓腔。相比之下,ElevenLabs 的中英混合幾乎無縫。

測試四:情感控制

Supertonic 3 支援透過 --emotion 參數調整語氣:

  • neutral:預設
  • happy:語調上揚,速度略快
  • sad:語速變慢,音調降低
  • angry:音量增大,語氣強烈

實測發現情感變化明顯,但不如 ElevenLabs 細膩(後者支援 10 多種情感變化)。

定價比較:開源 vs 付費

方案Supertonic 3ElevenLabsAzure TTS
費用$0$5/月起$16/百萬字元
聲音克隆✅ 免費✅ 付費限定❌ 需客製
本地運行
商用授權⚠️ 需確認
中文品質良好優秀優秀
延遲0.5-1 秒0.3-0.5 秒0.2-0.5 秒

關鍵差異:Supertonic 3 的最大優勢是零成本隱私(資料不外洩)。但如果你需要商用授權或頂級品質,付費服務仍較可靠。

誰適合用 Supertonic 3?

✅ 推薦給

  • 預算有限的創作者:YouTuber、Podcaster 可以用它製作旁白
  • 重視隱私的開發者:醫療、金融等行業,資料不能上雲端
  • AI 愛好者:想研究語音合成技術的學生或研究者
  • 小團隊:快速原型驗證,確認方向後再考慮付費方案

❌ 不適合

  • 需要商用授權的企業:開源授權細節尚待確認
  • 追求極致品質的專業用戶:有聲書、廣告配音仍建議 ElevenLabs
  • 不會命令列操作的用戶:目前沒有 GUI 介面

實戰案例:用 Supertonic 3 製作 AI 語音助手

我實際用 Supertonic 3 做了一個簡單的語音助手流程:

  1. 語音辨識:Whisper 將用戶語音轉文字
  2. LLM 回覆:Llama 3 生成回答
  3. 語音合成:Supertonic 3 將文字轉為語音

總延遲約 2-3 秒,比 ChatGPT Voice 慢一些,但完全免費且可自訂聲音。如果你有自己的聲音樣本,可以做出專屬的語音助手。

限制與注意事項

  1. 語言腔調:韓式發音在中文上較明顯,但可以透過微調改善
  2. 長文本問題:超過 1000 字時,後半段品質會下降
  3. 硬體需求:沒有 GPU 的話,CPU 推理速度極慢(一句 10 秒文字需 30 秒)
  4. 社群支援:不如 ElevenLabs 成熟,遇到問題需自己除錯

延伸閱讀

結論:值得一試嗎?

超級值得。 Supertonic 3 是開源 TTS 領域的重大突破——它讓聲音克隆從「昂貴的付費服務」變成「每個人都能用的免費工具」。

如果你有基本的 Python 基礎和 NVIDIA GPU,花 15 分鐘安裝測試,你會驚訝於它的品質。即使你最終選擇 ElevenLabs 或 Azure,Supertonic 3 也值得作為備用方案或原型工具。

一句話總結:Supertonic 3 不是 ElevenLabs 的完美替代品,但它證明了開源社群有能力挑戰商業服務。對於預算有限或重視隱私的用戶,這是最好的選擇。

下一步行動:前往 HuggingFace 下載 Supertonic 3,錄一段 30 秒的聲音測試克隆效果。然後在留言區告訴我們你的心得!