你還在花大錢請人拍影片嗎?或是每次錄影都要重拍好幾次,只因為說錯一個字?現在不用了。美團最近開源了一個超猛的模型——LongCat-Video-Avatar-1.5,你只需要一張照片、一段音頻,就能讓照片裡的人「活過來」,嘴巴跟著音頻同步張合,還能做出自然的表情。

這不是科幻電影,這是2026年的現實。而且最棒的是,完全免費開源,你的電腦就能跑。

為什麼你現在就需要這招?

想像一下:你是Youtuber,今天想錄一支產品開箱,但背景很亂、燈光不對,還要重錄好幾次。有了AI虛擬主播,你只需要拍一張自己的大頭照,錄一段聲音,AI就幫你生成一支專業等級的影片。

或者是:你經營電商,想為每個商品都做一支介紹影片。以前請模特兒、租攝影棚,一支影片成本至少幾千塊。現在?零成本,五分鐘一支。

更酷的是,你還可以讓歷史人物「復活」、讓寵物開口說話、或是把公司Logo變成會動的吉祥物。創意無限,只卡在你的想像力。

第一步:下載並安裝LongCat-Video-Avatar

首先,你要去HuggingFace下載這個模型。網址是:huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5

點進去之後,你會看到幾個檔案。你需要下載的是模型權重檔(.safetensors或.onnx格式)。建議下載ONNX版本,因為它可以在更多裝置上跑,包括Mac和Windows。

安裝方式很簡單:

  1. 打開你的終端機(Terminal)
  2. 輸入以下指令:
pip install diffusers transformers accelerate onnxruntime
  1. 下載完模型後,解壓縮到一個資料夾,例如 longcat-avatar/

如果你是Windows用戶,而且沒有Python環境,建議先安裝Anaconda,它會幫你搞定所有依賴套件。Mac用戶則可以直接用Homebrew安裝Python。

小技巧:如果你的顯卡記憶體不夠(低於8GB),可以改用CPU模式,雖然會慢一點,但一樣能跑。只要在程式碼中加入 device="cpu" 即可。

第二步:準備你的素材

好的素材決定好的結果。這裡有三個重點:

照片選擇:請用一張正面、光線均勻、沒有遮擋的臉部照片。不要戴墨鏡、不要側臉、不要有太多陰影。解析度至少512x512,越清晰越好。

音頻錄製:用你的手機錄音就可以了。環境要安靜,聲音要清楚。長度建議在30秒到2分鐘之間。太短效果不明顯,太長則可能出現不自然的抖動。

提示詞(Prompt):這是最關鍵的一步。你需要用英文描述你想要的畫面風格。例如:

  • “A professional woman in a business suit, speaking naturally, studio lighting, 4K quality”
  • “A friendly man smiling while talking, warm background, soft lighting”

提示詞越具體,AI越能理解你要什麼。如果你想要卡通風格,就加 “cartoon style, anime”; 想要寫實,就加 “photorealistic, hyper-detailed”。

第三步:一鍵生成你的虛擬主播

現在,我們來寫一段Python程式碼,讓一切自動化。打開你的編輯器(VSCode或任何文字編輯器),貼上以下程式碼:

from diffusers import DiffusionPipeline
import torch

# 載入模型
pipe = DiffusionPipeline.from_pretrained(
    "meituan-longcat/LongCat-Video-Avatar-1.5",
    torch_dtype=torch.float16
)
pipe.to("cuda")  # 如果有GPU就用cuda,沒有就改成cpu

# 設定輸入
image_path = "your_photo.jpg"  # 你的照片路徑
audio_path = "your_audio.wav"  # 你的音頻路徑
prompt = "A professional woman in a business suit, speaking naturally"

# 生成影片
video = pipe(
    image=image_path,
    audio=audio_path,
    prompt=prompt,
    num_frames=150,  # 輸出幀數,越多影片越長
    fps=30,          # 幀率,30是標準
)

# 儲存影片
video.save("my_avatar.mp4")

跑完之後,你就會得到一支 .mp4 檔案。打開看看,你的照片是不是真的開口說話了?

進階調整:如果你覺得嘴巴動作不夠自然,可以調整 guidance_scale 參數(預設7.5),數值越高,AI越忠於提示詞,但可能犧牲自然度。建議在5-10之間嘗試。

常見問題

Q: 我的電腦跑不動怎麼辦? A: 可以使用Google Colab免費的GPU資源。上傳你的模型和素材到Google Drive,然後在Colab中執行同樣的程式碼。或者,改用ONNX版本並設定device=“cpu”,雖然慢但一定能跑。

Q: 生成的影片嘴巴對不上聲音? A: 這是常見問題。首先檢查你的音頻檔案格式是否為WAV或MP3,取樣率建議16000Hz以上。其次,照片中的嘴巴必須是閉合的,如果是張開的,AI會混淆。最後,試著降低num_frames,先從30幀開始測試。

Q: 可以用中文提示詞嗎? A: 模型主要訓練在英文資料上,中文提示詞效果不佳。建議用英文描述,然後在音頻中說中文。AI會根據音頻內容自動調整嘴巴形狀,所以語言不是問題。

Q: 生成的影片有浮水印嗎? A: 完全沒有。這是開源模型,你生成的任何內容都屬於你,沒有浮水印,也沒有使用限制。商用也沒問題。

Q: 可以用影片代替照片嗎? A: 目前只支援單張照片輸入。如果你想用影片,需要先截取一幀作為輸入。未來版本可能會支援影片輸入。

延伸閱讀

總結:你的數位分身,五分鐘內誕生

你已經學會了如何用美團的LongCat-Video-Avatar-1.5,在五分鐘內創造屬於自己的AI虛擬主播。從下載模型、準備素材,到一鍵生成,整個過程不需要任何專業知識。

這項技術的應用場景遠比你想像的廣:你可以用它來製作教學影片、產品介紹、個人Vlog,甚至是互動式的客戶服務。想像一下,你的網站上有一個會說話的客服,24小時不間斷地為客戶解答問題——這不再是夢想。

現在就打開你的電腦,下載模型,拍一張照片,錄一段聲音。試試看,你會驚訝於AI的進步速度。如果你做出來了,歡迎在社群上標記我們,讓我們看看你的創意作品!

記住,AI不是來取代你,而是來放大你的能力。你只需要專注在創意和內容,剩下的交給科技。