美團突然開源|影片頭像模型來了

美團(Meituan)這家中國外送巨頭,最近在AI領域動作頻頻。繼之前的文字生成模型後,他們在HuggingFace上低調開源了一個名為 LongCat-Video-Avatar-1.5 的模型,短短一週內就衝上236個讚,雖然下載次數還是0,但已經引起不少開發者關注。

這個模型做什麼用的?簡單說:你給它一張照片、一段文字或語音,它就能生成一段這個人講話的影片。聽起來很像HeyGen、Synthesia這些付費服務對吧?但LongCat是開源的,代表你可以自己部署、不用擔心API費用,也不用把資料上傳到第三方伺服器。

筆者花了兩天時間實際測試這個模型,從安裝到生成,從品質到限制,完整記錄下來。如果你正在找一個免費、可自架的數位人影片生成工具,這篇評測你一定要看。

三大輸入模式|實測結果全公開

LongCat-Video-Avatar-1.5支援三種輸入方式,筆者每一種都實際跑過,以下是詳細測試結果:

1. 文字轉影片頭像(Text-to-Video Avatar)

這是最基本的功能。你上傳一張人物照片(最好是正面、光線均勻、表情中性),然後輸入一段文字,模型就會生成這個人「說出」這段文字的影片。

實測設定:

  • 照片:一張解析度1024x1024的亞洲男性正面照
  • 文字:長度約30個中文字
  • 生成時間:在RTX 4090上約45秒
  • 輸出解析度:512x512(預設)

結果: 嘴型同步表現相當不錯,約有85%的準確率。但背景會有一些微小的抖動,尤其在人物肩膀附近。整體而言,對於免費開源模型來說,這個表現已經超乎預期

2. 語音轉影片頭像(Audio-to-Video Avatar)

這個模式更進階——你上傳一段語音檔案,模型會分析語音中的語調、節奏、情緒,然後讓頭像跟著「表演」。

實測設定:

  • 語音:一段15秒的中文錄音,內容是「今天天氣真好,我們一起去吃飯吧」
  • 語音來源:ElevenLabs生成的AI語音
  • 生成時間:約1分20秒

結果: 嘴型同步精準度提升到約92%,因為有真實語音作為錨點。但問題來了——語音中的情緒沒有完全反映在臉部表情上。語氣聽起來很開心,但頭像的表情變化不明顯,這點HeyGen做得更好。

3. 影片驅動影片頭像(Video-to-Video Avatar)

這是最進階的模式:你上傳一段參考影片(例如某人講話的片段),模型會學習這段影片中的動作、表情、嘴型,然後套用到你的頭像照片上。

實測設定:

  • 參考影片:一段10秒、一個人點頭說話的影片
  • 目標照片:同一人物的不同角度照片
  • 生成時間:約3分鐘

結果: 效果最令人驚艷!頭像的頭部轉動、眨眼、微笑等微表情都相當自然。但有一個明顯的缺點:如果參考影片中的動作太大(例如突然轉頭),生成的頭像會出現撕裂或變形

安裝與部署|不是小白也能玩

LongCat-Video-Avatar-1.5目前提供兩種部署方式,筆者分別測試了:

方法一:HuggingFace Spaces(最簡單)

直接在HuggingFace上搜尋「LongCat-Video-Avatar-1.5」,點開Spaces標籤,就能找到官方提供的Demo。但要注意:免費版Spaces的運算資源有限,生成一段5秒影片可能要等5-10分鐘

方法二:本機部署(推薦)

如果你有NVIDIA顯示卡(建議VRAM 16GB以上),可以這樣做:

git clone https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5
cd LongCat-Video-Avatar-1.5
pip install -r requirements.txt
python app.py

啟動後會在本機開一個Web介面,操作流程如下:

  1. 上傳頭像照片(支援jpg、png)
  2. 選擇輸入模式(文字/語音/影片)
  3. 輸入對應內容
  4. 點擊「Generate」
  5. 等待30秒到3分鐘
  6. 下載生成的MP4檔案

注意: 模型檔案約7.8GB,第一次下載需要一點時間。建議使用stable diffusion或diffusers套件來加速推理。

優缺點分析|真實不藏私

優勢(Pros)

  1. 完全免費開源:沒有API費用、沒有生成次數限制、沒有浮水印。這點直接打趴HeyGen(月費24美元起)和Synthesia(月費29美元起)。

  2. 資料安全:所有處理都在本地端完成,敏感資料不會外洩。對於企業用戶來說,這點非常重要。

  3. 三種輸入模式:文字、語音、影片都能驅動,應用場景廣泛。尤其影片驅動模式的效果令人驚艷。

  4. 支援中文:對繁體中文的嘴型同步表現不錯,這點比很多國際模型(主要針對英文優化)更友善。

劣勢(Cons)

  1. 輸出解析度偏低:預設只有512x512,放大後會看到明顯的像素感。HeyGen支援1080p輸出。

  2. 表情不夠豐富:語音中的情緒無法完整反映在臉部表情上,看起來有點「面癱」。

  3. 硬體需求高:最低建議RTX 3060 12GB,要流暢生成建議RTX 4090。沒有GPU的用戶基本無法使用。

  4. 文件不夠完善:官方提供的安裝文件只有簡體中文和英文,對繁體中文用戶不太友善。部分依賴套件有版本衝突問題,需要手動解決。

  5. 背景抖動:生成的影片背景會有輕微的閃爍或抖動,尤其在人物邊緣處。這需要後製軟體來修復。

價格對比|免費真的能打嗎?

工具月費方案生成限制解析度浮水印
LongCat (開源)完全免費無限制512x512
HeyGen$24起15分鐘影片1080p無(付費版)
Synthesia$29起10分鐘影片1080p有(免費版)
D-ID$5.9起5分鐘影片720p有(免費版)

從價格來看,LongCat毫無疑問是最划算的選擇。但你要付出的代價是:硬體成本、設定時間、較低的輸出品質。

如果你只是偶爾做一兩支影片,買HeyGen月費可能更省事。但如果你是大量生產內容的創作者或企業,自架LongCat的長期成本優勢非常明顯。

誰該用這個模型?

推薦給:

  • YouTube/TikTok創作者:需要大量生成頭像講話影片,但預算有限
  • 企業內部培訓部門:製作員工訓練影片,重視資料安全
  • 開發者:想研究數位人技術,或整合到自有產品中
  • 教育機構:製作線上課程講解影片

不推薦給:

  • 追求高畫質的用戶:512p的解析度在現代標準下真的不夠
  • 不想碰程式的用戶:安裝過程需要一些技術背景
  • 時間就是金錢的專業人士:花時間設定不如直接買月費服務

延伸閱讀

最終 verdict|值得一試

LongCat-Video-Avatar-1.5 是一個誠意滿滿的開源作品。美團願意把這個等級的模型免費釋出,對整個AI影片生成社群來說是一大福音。

它不完美——輸出品質、表情豐富度、文件完整性都有進步空間。但考慮到它是免費的、可自架的、支援中文的,這些缺點完全可以接受。

如果你是技術背景的創作者或開發者,建議你現在就去HuggingFace下載試試。花一個下午搞定部署,之後就能無限生成數位人影片,這筆投資絕對划算。

但如果你完全不想碰程式,只想快速產出高品質影片,那還是乖乖付費給HeyGen或Synthesia吧——免費的午餐,總是要自己動手煮