五分鐘學會！|手機級AI看懂圖片

你還在用手機拍了一張菜單，然後慢慢打字問 ChatGPT 這是什麼菜嗎？或者你拍了一張發票，想要記帳，卻還要人工輸入金額？今天我要告訴你一個超級實用的秘密：你其實可以讓 AI 直接在手機上看懂圖片，而且完全免費、不需要網路，更不用擔心隱私外洩。

這個神器叫做 MiniCPM-V-4.6，是由中國團隊 openbmb 開發的最新多模態模型。它最厲害的地方在於，它可以在普通手機或筆電上順暢運行，卻能像 GPT-4V 一樣精準分析圖片內容。而且它支援繁體中文，對我們香港台灣用戶來說簡直是福音。

為什麼你需要這個模型？

想像一下這些場景：你在街市買菜，看到一個不認識的水果，拍下來它就能告訴你這是什麼、怎麼吃、多少錢合理。你在餐廳看到日文菜單，拍下來它立刻幫你翻譯成繁體中文，還附上推薦菜色。你收到一堆發票，拍一張照片它就能自動幫你分類記帳。這些事情，MiniCPM-V-4.6 都能做到，而且是在你自己的裝置上完成，資料不外流。

第一步：下載並安裝模型

首先，你需要一台電腦（Windows/Mac/Linux 都可以），不需要頂級顯卡。這模型有 4B 參數版本，只需要約 4GB 的 RAM 就能運行。如果你的電腦有 NVIDIA 顯卡更好，但沒有也能用 CPU 跑，只是慢一點。

打開你的終端機（Windows 用戶請打開命令提示字元或 PowerShell），輸入以下指令安裝必要的套件：

pip install transformers torch accelerate sentencepiece pillow

接著下載模型。最簡單的方式是使用 HuggingFace 的 huggingface_hub 套件：

pip install huggingface_hub
python -c "from huggingface_hub import snapshot_download; snapshot_download(repo_id='openbmb/MiniCPM-V-4.6', local_dir='./MiniCPM-V-4.6')"

這個步驟會下載大約 2.5GB 的檔案，網路速度快的話大概 5-10 分鐘。下載完成後，你就擁有了一個完全離線可用的多模態 AI。

第二步：寫一個簡單的圖片分析程式

現在我們來寫一個 Python 程式，讓這個模型分析圖片。請在你的專案資料夾中建立一個檔案叫做 analyze_image.py，貼上以下程式碼：

import torch
from transformers import AutoModel, AutoTokenizer
from PIL import Image

# 載入模型和 tokenizer
model_path = "./MiniCPM-V-4.6"
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
model = AutoModel.from_pretrained(model_path, trust_remote_code=True, 
                                  torch_dtype=torch.bfloat16, device_map="auto")

# 設定要分析的圖片路徑
image_path = "your_image.jpg"  # 改成你的圖片路徑
image = Image.open(image_path).convert("RGB")

# 設定你要問的問題
question = "請詳細描述這張圖片中的內容，包括物體、文字、顏色和場景。"

# 讓 AI 分析圖片
response, history = model.chat(
    image=image,
    msgs=[{"role": "user", "content": question}],
    tokenizer=tokenizer,
    sampling=True,
    temperature=0.7
)

print("AI 分析結果：")
print(response)

儲存檔案後，在終端機執行：

python analyze_image.py

第一次執行時，模型會載入到記憶體中，可能需要 10-20 秒。之後每次分析圖片就會快很多。

第三步：實際應用範例

讓我們來測試一個真實場景。假設你拍了一張香港茶餐廳的菜單照片，裡面有繁體中文、英文和一些圖片。你可以把問題改成：

question = "這是一張茶餐廳菜單。請列出所有菜式及其價格，並推薦三道最受歡迎的菜。用繁體中文回答。"

你會得到類似這樣的回應：

根據菜單內容，菜式包括：

乾炒牛河 - HK$68

菠蘿油 - HK$18

絲襪奶茶 - HK$22 … 推薦菜式：乾炒牛河（經典）、菠蘿油（招牌）、楊州炒飯（份量大）

如果你想要更進階的功能，比如自動記帳，你可以寫一個批次處理程式，一次分析多張發票圖片，然後輸出成 Excel 檔案。這對於自由工作者或小店老闆來說，可以省下大量時間。

第四步：在手機上運行（進階）

如果你真的想用手機跑，MiniCPM-V-4.6 也有針對手機優化的版本。你可以使用 MLX（Mac）、MediaPipe（Android）或 CoreML（iOS）來部署。不過這需要一些程式開發經驗，初學者可以先在電腦上練習。

一個比較簡單的方式是使用 Termux（Android 上的 Linux 模擬器），安裝 Python 後就能跑跟上面一樣的程式碼。但請注意，手機的 RAM 至少要 8GB 以上，否則會很卡。

常見問題

Q: 我的電腦沒有顯卡，可以跑嗎？ A: 可以。這個模型可以用 CPU 運行，只是速度會比較慢，分析一張圖片可能需要 30 秒到 1 分鐘。建議至少有 8GB RAM。

Q: 模型分析結果不準確怎麼辦？ A: 試著把問題寫得更具體。例如不要只問「這是什麼？」，而是問「這張圖片中有哪些物體？它們的顏色和位置是什麼？」。另外，圖片解析度越高，效果越好。

Q: 支援繁體中文嗎？ A: 支援。MiniCPM-V-4.6 在訓練時包含了繁體中文資料，可以直接用繁體中文提問，它也會用繁體中文回答。但如果遇到非常本土的用語（例如「打邊爐」），建議先用一般中文描述。

Q: 這個模型會把我的圖片上傳到雲端嗎？ A: 不會。模型完全在你的電腦上運行，圖片不會離開你的裝置。這對處理敏感文件（如身份證、合約）非常安全。

Q: 可以分析影片嗎？ A: 這個模型本身是設計給靜態圖片的。如果你要分析影片，可以先用手機截圖關鍵幀，再把截圖丟給模型分析。我們之後會出一篇關於影片分析的教學。

總結

今天你學會了如何在本地部署 MiniCPM-V-4.6，這是一個可以在普通電腦甚至手機上運行的多模態 AI 模型。你不再需要依賴網路，也不用擔心隱私問題，就能讓 AI 幫你看懂圖片、菜單、發票等各種內容。

我鼓勵你今天就下載試試看。拍一張你桌上的東西，問問 AI 它看到了什麼，你會發現這個免費的開源模型其實非常強大。如果你遇到任何問題，歡迎在下方留言，我們一起討論解決方案。

下次當你看到有人還在用手機打字問 ChatGPT 圖片內容時，你就可以微笑著說：「我有一個更厲害的方法。」

🔍 搜尋文章

五分鐘學會！|手機級AI看懂圖片

五分鐘學會！|手機級AI看懂圖片

為什麼你需要這個模型？

第一步：下載並安裝模型

第二步：寫一個簡單的圖片分析程式

第三步：實際應用範例

第四步：在手機上運行（進階）

常見問題

延伸閱讀

總結

🔍 搜尋文章

📬 每週 AI 精選

五分鐘學會！|手機級AI看懂圖片

五分鐘學會！|手機級AI看懂圖片

為什麼你需要這個模型？

第一步：下載並安裝模型

第二步：寫一個簡單的圖片分析程式

第三步：實際應用範例

第四步：在手機上運行（進階）

常見問題

延伸閱讀

總結

相關文章

90%的人不知道？｜這樣找模型最快

90%的人不知道！｜這樣找動漫模型

90%的人不知道！|Google開源模型自己跑