五分鐘學會!|手機級AI看懂圖片
你還在用手機拍了一張菜單,然後慢慢打字問 ChatGPT 這是什麼菜嗎?或者你拍了一張發票,想要記帳,卻還要人工輸入金額?今天我要告訴你一個超級實用的秘密:你其實可以讓 AI 直接在手機上看懂圖片,而且完全免費、不需要網路,更不用擔心隱私外洩。
這個神器叫做 MiniCPM-V-4.6,是由中國團隊 openbmb 開發的最新多模態模型。它最厲害的地方在於,它可以在普通手機或筆電上順暢運行,卻能像 GPT-4V 一樣精準分析圖片內容。而且它支援繁體中文,對我們香港台灣用戶來說簡直是福音。
為什麼你需要這個模型?
想像一下這些場景:你在街市買菜,看到一個不認識的水果,拍下來它就能告訴你這是什麼、怎麼吃、多少錢合理。你在餐廳看到日文菜單,拍下來它立刻幫你翻譯成繁體中文,還附上推薦菜色。你收到一堆發票,拍一張照片它就能自動幫你分類記帳。這些事情,MiniCPM-V-4.6 都能做到,而且是在你自己的裝置上完成,資料不外流。
第一步:下載並安裝模型
首先,你需要一台電腦(Windows/Mac/Linux 都可以),不需要頂級顯卡。這模型有 4B 參數版本,只需要約 4GB 的 RAM 就能運行。如果你的電腦有 NVIDIA 顯卡更好,但沒有也能用 CPU 跑,只是慢一點。
打開你的終端機(Windows 用戶請打開命令提示字元或 PowerShell),輸入以下指令安裝必要的套件:
pip install transformers torch accelerate sentencepiece pillow
接著下載模型。最簡單的方式是使用 HuggingFace 的 huggingface_hub 套件:
pip install huggingface_hub
python -c "from huggingface_hub import snapshot_download; snapshot_download(repo_id='openbmb/MiniCPM-V-4.6', local_dir='./MiniCPM-V-4.6')"
這個步驟會下載大約 2.5GB 的檔案,網路速度快的話大概 5-10 分鐘。下載完成後,你就擁有了一個完全離線可用的多模態 AI。
第二步:寫一個簡單的圖片分析程式
現在我們來寫一個 Python 程式,讓這個模型分析圖片。請在你的專案資料夾中建立一個檔案叫做 analyze_image.py,貼上以下程式碼:
import torch
from transformers import AutoModel, AutoTokenizer
from PIL import Image
# 載入模型和 tokenizer
model_path = "./MiniCPM-V-4.6"
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
model = AutoModel.from_pretrained(model_path, trust_remote_code=True,
torch_dtype=torch.bfloat16, device_map="auto")
# 設定要分析的圖片路徑
image_path = "your_image.jpg" # 改成你的圖片路徑
image = Image.open(image_path).convert("RGB")
# 設定你要問的問題
question = "請詳細描述這張圖片中的內容,包括物體、文字、顏色和場景。"
# 讓 AI 分析圖片
response, history = model.chat(
image=image,
msgs=[{"role": "user", "content": question}],
tokenizer=tokenizer,
sampling=True,
temperature=0.7
)
print("AI 分析結果:")
print(response)
儲存檔案後,在終端機執行:
python analyze_image.py
第一次執行時,模型會載入到記憶體中,可能需要 10-20 秒。之後每次分析圖片就會快很多。
第三步:實際應用範例
讓我們來測試一個真實場景。假設你拍了一張香港茶餐廳的菜單照片,裡面有繁體中文、英文和一些圖片。你可以把問題改成:
question = "這是一張茶餐廳菜單。請列出所有菜式及其價格,並推薦三道最受歡迎的菜。用繁體中文回答。"
你會得到類似這樣的回應:
根據菜單內容,菜式包括:
- 乾炒牛河 - HK$68
- 菠蘿油 - HK$18
- 絲襪奶茶 - HK$22 … 推薦菜式:乾炒牛河(經典)、菠蘿油(招牌)、楊州炒飯(份量大)
如果你想要更進階的功能,比如自動記帳,你可以寫一個批次處理程式,一次分析多張發票圖片,然後輸出成 Excel 檔案。這對於自由工作者或小店老闆來說,可以省下大量時間。
第四步:在手機上運行(進階)
如果你真的想用手機跑,MiniCPM-V-4.6 也有針對手機優化的版本。你可以使用 MLX(Mac)、MediaPipe(Android)或 CoreML(iOS)來部署。不過這需要一些程式開發經驗,初學者可以先在電腦上練習。
一個比較簡單的方式是使用 Termux(Android 上的 Linux 模擬器),安裝 Python 後就能跑跟上面一樣的程式碼。但請注意,手機的 RAM 至少要 8GB 以上,否則會很卡。
常見問題
Q: 我的電腦沒有顯卡,可以跑嗎? A: 可以。這個模型可以用 CPU 運行,只是速度會比較慢,分析一張圖片可能需要 30 秒到 1 分鐘。建議至少有 8GB RAM。
Q: 模型分析結果不準確怎麼辦? A: 試著把問題寫得更具體。例如不要只問「這是什麼?」,而是問「這張圖片中有哪些物體?它們的顏色和位置是什麼?」。另外,圖片解析度越高,效果越好。
Q: 支援繁體中文嗎? A: 支援。MiniCPM-V-4.6 在訓練時包含了繁體中文資料,可以直接用繁體中文提問,它也會用繁體中文回答。但如果遇到非常本土的用語(例如「打邊爐」),建議先用一般中文描述。
Q: 這個模型會把我的圖片上傳到雲端嗎? A: 不會。模型完全在你的電腦上運行,圖片不會離開你的裝置。這對處理敏感文件(如身份證、合約)非常安全。
Q: 可以分析影片嗎? A: 這個模型本身是設計給靜態圖片的。如果你要分析影片,可以先用手機截圖關鍵幀,再把截圖丟給模型分析。我們之後會出一篇關於影片分析的教學。
延伸閱讀
總結
今天你學會了如何在本地部署 MiniCPM-V-4.6,這是一個可以在普通電腦甚至手機上運行的多模態 AI 模型。你不再需要依賴網路,也不用擔心隱私問題,就能讓 AI 幫你看懂圖片、菜單、發票等各種內容。
我鼓勵你今天就下載試試看。拍一張你桌上的東西,問問 AI 它看到了什麼,你會發現這個免費的開源模型其實非常強大。如果你遇到任何問題,歡迎在下方留言,我們一起討論解決方案。
下次當你看到有人還在用手機打字問 ChatGPT 圖片內容時,你就可以微笑著說:「我有一個更厲害的方法。」