你還在花大錢請人拍影片嗎？或是每次錄影都要重拍好幾次，只因為說錯一個字？現在不用了。美團最近開源了一個超猛的模型——LongCat-Video-Avatar-1.5，你只需要一張照片、一段音頻，就能讓照片裡的人「活過來」，嘴巴跟著音頻同步張合，還能做出自然的表情。

這不是科幻電影，這是2026年的現實。而且最棒的是，完全免費、開源，你的電腦就能跑。

為什麼你現在就需要這招？

想像一下：你是Youtuber，今天想錄一支產品開箱，但背景很亂、燈光不對，還要重錄好幾次。有了AI虛擬主播，你只需要拍一張自己的大頭照，錄一段聲音，AI就幫你生成一支專業等級的影片。

或者是：你經營電商，想為每個商品都做一支介紹影片。以前請模特兒、租攝影棚，一支影片成本至少幾千塊。現在？零成本，五分鐘一支。

更酷的是，你還可以讓歷史人物「復活」、讓寵物開口說話、或是把公司Logo變成會動的吉祥物。創意無限，只卡在你的想像力。

第一步：下載並安裝LongCat-Video-Avatar

首先，你要去HuggingFace下載這個模型。網址是：huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5

點進去之後，你會看到幾個檔案。你需要下載的是模型權重檔（.safetensors或.onnx格式）。建議下載ONNX版本，因為它可以在更多裝置上跑，包括Mac和Windows。

安裝方式很簡單：

打開你的終端機（Terminal）
輸入以下指令：

pip install diffusers transformers accelerate onnxruntime

下載完模型後，解壓縮到一個資料夾，例如 longcat-avatar/

如果你是Windows用戶，而且沒有Python環境，建議先安裝Anaconda，它會幫你搞定所有依賴套件。Mac用戶則可以直接用Homebrew安裝Python。

小技巧：如果你的顯卡記憶體不夠（低於8GB），可以改用CPU模式，雖然會慢一點，但一樣能跑。只要在程式碼中加入 device="cpu" 即可。

第二步：準備你的素材

好的素材決定好的結果。這裡有三個重點：

照片選擇：請用一張正面、光線均勻、沒有遮擋的臉部照片。不要戴墨鏡、不要側臉、不要有太多陰影。解析度至少512x512，越清晰越好。

音頻錄製：用你的手機錄音就可以了。環境要安靜，聲音要清楚。長度建議在30秒到2分鐘之間。太短效果不明顯，太長則可能出現不自然的抖動。

提示詞（Prompt）：這是最關鍵的一步。你需要用英文描述你想要的畫面風格。例如：

“A professional woman in a business suit, speaking naturally, studio lighting, 4K quality”
“A friendly man smiling while talking, warm background, soft lighting”

提示詞越具體，AI越能理解你要什麼。如果你想要卡通風格，就加 “cartoon style, anime”; 想要寫實，就加 “photorealistic, hyper-detailed”。

第三步：一鍵生成你的虛擬主播

現在，我們來寫一段Python程式碼，讓一切自動化。打開你的編輯器（VSCode或任何文字編輯器），貼上以下程式碼：

from diffusers import DiffusionPipeline
import torch

# 載入模型
pipe = DiffusionPipeline.from_pretrained(
    "meituan-longcat/LongCat-Video-Avatar-1.5",
    torch_dtype=torch.float16
)
pipe.to("cuda")  # 如果有GPU就用cuda，沒有就改成cpu

# 設定輸入
image_path = "your_photo.jpg"  # 你的照片路徑
audio_path = "your_audio.wav"  # 你的音頻路徑
prompt = "A professional woman in a business suit, speaking naturally"

# 生成影片
video = pipe(
    image=image_path,
    audio=audio_path,
    prompt=prompt,
    num_frames=150,  # 輸出幀數，越多影片越長
    fps=30,          # 幀率，30是標準
)

# 儲存影片
video.save("my_avatar.mp4")

跑完之後，你就會得到一支 .mp4 檔案。打開看看，你的照片是不是真的開口說話了？

進階調整：如果你覺得嘴巴動作不夠自然，可以調整 guidance_scale 參數（預設7.5），數值越高，AI越忠於提示詞，但可能犧牲自然度。建議在5-10之間嘗試。

常見問題

Q: 我的電腦跑不動怎麼辦？ A: 可以使用Google Colab免費的GPU資源。上傳你的模型和素材到Google Drive，然後在Colab中執行同樣的程式碼。或者，改用ONNX版本並設定device=“cpu”，雖然慢但一定能跑。

Q: 生成的影片嘴巴對不上聲音？ A: 這是常見問題。首先檢查你的音頻檔案格式是否為WAV或MP3，取樣率建議16000Hz以上。其次，照片中的嘴巴必須是閉合的，如果是張開的，AI會混淆。最後，試著降低num_frames，先從30幀開始測試。

Q: 可以用中文提示詞嗎？ A: 模型主要訓練在英文資料上，中文提示詞效果不佳。建議用英文描述，然後在音頻中說中文。AI會根據音頻內容自動調整嘴巴形狀，所以語言不是問題。

Q: 生成的影片有浮水印嗎？ A: 完全沒有。這是開源模型，你生成的任何內容都屬於你，沒有浮水印，也沒有使用限制。商用也沒問題。

Q: 可以用影片代替照片嗎？ A: 目前只支援單張照片輸入。如果你想用影片，需要先截取一幀作為輸入。未來版本可能會支援影片輸入。

總結：你的數位分身，五分鐘內誕生

你已經學會了如何用美團的LongCat-Video-Avatar-1.5，在五分鐘內創造屬於自己的AI虛擬主播。從下載模型、準備素材，到一鍵生成，整個過程不需要任何專業知識。

這項技術的應用場景遠比你想像的廣：你可以用它來製作教學影片、產品介紹、個人Vlog，甚至是互動式的客戶服務。想像一下，你的網站上有一個會說話的客服，24小時不間斷地為客戶解答問題——這不再是夢想。

現在就打開你的電腦，下載模型，拍一張照片，錄一段聲音。試試看，你會驚訝於AI的進步速度。如果你做出來了，歡迎在社群上標記我們，讓我們看看你的創意作品！

記住，AI不是來取代你，而是來放大你的能力。你只需要專注在創意和內容，剩下的交給科技。

🔍 搜尋文章

五分鐘搞定！|自訂AI虛擬主播

為什麼你現在就需要這招？

第一步：下載並安裝LongCat-Video-Avatar

第二步：準備你的素材

第三步：一鍵生成你的虛擬主播

常見問題

延伸閱讀

總結：你的數位分身，五分鐘內誕生

🔍 搜尋文章

📬 每週 AI 精選

五分鐘搞定！|自訂AI虛擬主播

為什麼你現在就需要這招？

第一步：下載並安裝LongCat-Video-Avatar

第二步：準備你的素材

第三步：一鍵生成你的虛擬主播

常見問題

延伸閱讀

總結：你的數位分身，五分鐘內誕生

相關文章

畫質太差怎麼辦？|AI一鍵變4K超簡單

90%的人不懂！|提示詞工程師秘技

90%的人不懂！|提示詞工程師秘技