你還在花大錢請人拍影片嗎?或是每次錄影都要重拍好幾次,只因為說錯一個字?現在不用了。美團最近開源了一個超猛的模型——LongCat-Video-Avatar-1.5,你只需要一張照片、一段音頻,就能讓照片裡的人「活過來」,嘴巴跟著音頻同步張合,還能做出自然的表情。
這不是科幻電影,這是2026年的現實。而且最棒的是,完全免費、開源,你的電腦就能跑。
為什麼你現在就需要這招?
想像一下:你是Youtuber,今天想錄一支產品開箱,但背景很亂、燈光不對,還要重錄好幾次。有了AI虛擬主播,你只需要拍一張自己的大頭照,錄一段聲音,AI就幫你生成一支專業等級的影片。
或者是:你經營電商,想為每個商品都做一支介紹影片。以前請模特兒、租攝影棚,一支影片成本至少幾千塊。現在?零成本,五分鐘一支。
更酷的是,你還可以讓歷史人物「復活」、讓寵物開口說話、或是把公司Logo變成會動的吉祥物。創意無限,只卡在你的想像力。
第一步:下載並安裝LongCat-Video-Avatar
首先,你要去HuggingFace下載這個模型。網址是:huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5
點進去之後,你會看到幾個檔案。你需要下載的是模型權重檔(.safetensors或.onnx格式)。建議下載ONNX版本,因為它可以在更多裝置上跑,包括Mac和Windows。
安裝方式很簡單:
- 打開你的終端機(Terminal)
- 輸入以下指令:
pip install diffusers transformers accelerate onnxruntime
- 下載完模型後,解壓縮到一個資料夾,例如
longcat-avatar/
如果你是Windows用戶,而且沒有Python環境,建議先安裝Anaconda,它會幫你搞定所有依賴套件。Mac用戶則可以直接用Homebrew安裝Python。
小技巧:如果你的顯卡記憶體不夠(低於8GB),可以改用CPU模式,雖然會慢一點,但一樣能跑。只要在程式碼中加入 device="cpu" 即可。
第二步:準備你的素材
好的素材決定好的結果。這裡有三個重點:
照片選擇:請用一張正面、光線均勻、沒有遮擋的臉部照片。不要戴墨鏡、不要側臉、不要有太多陰影。解析度至少512x512,越清晰越好。
音頻錄製:用你的手機錄音就可以了。環境要安靜,聲音要清楚。長度建議在30秒到2分鐘之間。太短效果不明顯,太長則可能出現不自然的抖動。
提示詞(Prompt):這是最關鍵的一步。你需要用英文描述你想要的畫面風格。例如:
- “A professional woman in a business suit, speaking naturally, studio lighting, 4K quality”
- “A friendly man smiling while talking, warm background, soft lighting”
提示詞越具體,AI越能理解你要什麼。如果你想要卡通風格,就加 “cartoon style, anime”; 想要寫實,就加 “photorealistic, hyper-detailed”。
第三步:一鍵生成你的虛擬主播
現在,我們來寫一段Python程式碼,讓一切自動化。打開你的編輯器(VSCode或任何文字編輯器),貼上以下程式碼:
from diffusers import DiffusionPipeline
import torch
# 載入模型
pipe = DiffusionPipeline.from_pretrained(
"meituan-longcat/LongCat-Video-Avatar-1.5",
torch_dtype=torch.float16
)
pipe.to("cuda") # 如果有GPU就用cuda,沒有就改成cpu
# 設定輸入
image_path = "your_photo.jpg" # 你的照片路徑
audio_path = "your_audio.wav" # 你的音頻路徑
prompt = "A professional woman in a business suit, speaking naturally"
# 生成影片
video = pipe(
image=image_path,
audio=audio_path,
prompt=prompt,
num_frames=150, # 輸出幀數,越多影片越長
fps=30, # 幀率,30是標準
)
# 儲存影片
video.save("my_avatar.mp4")
跑完之後,你就會得到一支 .mp4 檔案。打開看看,你的照片是不是真的開口說話了?
進階調整:如果你覺得嘴巴動作不夠自然,可以調整 guidance_scale 參數(預設7.5),數值越高,AI越忠於提示詞,但可能犧牲自然度。建議在5-10之間嘗試。
常見問題
Q: 我的電腦跑不動怎麼辦? A: 可以使用Google Colab免費的GPU資源。上傳你的模型和素材到Google Drive,然後在Colab中執行同樣的程式碼。或者,改用ONNX版本並設定device=“cpu”,雖然慢但一定能跑。
Q: 生成的影片嘴巴對不上聲音? A: 這是常見問題。首先檢查你的音頻檔案格式是否為WAV或MP3,取樣率建議16000Hz以上。其次,照片中的嘴巴必須是閉合的,如果是張開的,AI會混淆。最後,試著降低num_frames,先從30幀開始測試。
Q: 可以用中文提示詞嗎? A: 模型主要訓練在英文資料上,中文提示詞效果不佳。建議用英文描述,然後在音頻中說中文。AI會根據音頻內容自動調整嘴巴形狀,所以語言不是問題。
Q: 生成的影片有浮水印嗎? A: 完全沒有。這是開源模型,你生成的任何內容都屬於你,沒有浮水印,也沒有使用限制。商用也沒問題。
Q: 可以用影片代替照片嗎? A: 目前只支援單張照片輸入。如果你想用影片,需要先截取一幀作為輸入。未來版本可能會支援影片輸入。
延伸閱讀
總結:你的數位分身,五分鐘內誕生
你已經學會了如何用美團的LongCat-Video-Avatar-1.5,在五分鐘內創造屬於自己的AI虛擬主播。從下載模型、準備素材,到一鍵生成,整個過程不需要任何專業知識。
這項技術的應用場景遠比你想像的廣:你可以用它來製作教學影片、產品介紹、個人Vlog,甚至是互動式的客戶服務。想像一下,你的網站上有一個會說話的客服,24小時不間斷地為客戶解答問題——這不再是夢想。
現在就打開你的電腦,下載模型,拍一張照片,錄一段聲音。試試看,你會驚訝於AI的進步速度。如果你做出來了,歡迎在社群上標記我們,讓我們看看你的創意作品!
記住,AI不是來取代你,而是來放大你的能力。你只需要專注在創意和內容,剩下的交給科技。