手機級AI模型｜看懂圖片還會寫詩

你手上那台三年前的手機，現在也能跑AI模型了。不是那種只能回覆文字的聊天機器人，而是真正「看得懂圖片」的多模態AI——你拍一張照片，它能告訴你這是什麼、幫你寫一段文案、甚至分析一份PDF文件。

這不是科幻片。這是開源社群最新的禮物：MiniCPM-V-4.6。

這款由中國團隊OpenBMB開發的模型，剛剛在HuggingFace上架，一週內就獲得166個讚。最驚人的是，它只有4.6B參數，卻能做到媲美GPT-4V的圖片理解能力。更扯的是，你可以在自己的電腦或手機上跑它，完全離線、完全免費、資料不外洩。

今天這篇教學，我會帶你從零開始，在本機部署MiniCPM-V-4.6。你不需要GPU、不需要雲端帳號，甚至不需要寫程式。準備好了嗎？我們開始。

為什麼你該認識MiniCPM-V-4.6？

你可能會問：市面上已經有ChatGPT、Gemini、Claude這些強大的多模態AI，為什麼還要自己部署一個？

答案是三個字：自主權。

當你把圖片上傳到雲端AI服務時，你實際上是在把自己的資料交給別人。你的公司文件、你的個人照片、你的客戶資料——這些都成了別人的訓練素材。但當你用自己的電腦跑MiniCPM-V-4.6時，所有運算都在本機完成，資料從未離開你的裝置。

更實際的好處是：不用排隊、不用付費、沒有用量限制。你可以在午夜三點對著一張模糊的發票問「這上面的總金額是多少？」，AI會立刻回答你，而且不會因為你問了第100次就開始收費。

MiniCPM-V-4.6的厲害之處在於它用了「多模態」架構。簡單說，它同時理解文字和圖片，而且能把兩者結合起來。你給它一張貓咪照片，它可以寫出一首關於那隻貓的詩；你給它一份合約掃描檔，它可以摘要出重點條款；你給它一張地圖截圖，它可以告訴你從A到B的最佳路線。

最誇張的是，這一切只需要4GB的記憶體就能運行。

第一步：準備你的環境

在開始之前，我們需要確認你的電腦符合基本條件。好消息是，條件非常寬鬆。

硬體需求：

作業系統：Windows 10/11、macOS、或任何Linux發行版
記憶體：至少8GB（建議16GB以上）
儲存空間：至少10GB
GPU：非必要，但有NVIDIA顯卡會更快

軟體需求：

Python 3.10 或更新版本
pip（Python套件管理器）

如果你不確定自己有沒有Python，打開終端機（Windows叫命令提示字元或PowerShell），輸入：

python --version

如果出現版本號碼，恭喜你，已經有了。如果顯示「command not found」，去Python官網下載安裝就好。

接下來，我們要安裝最重要的工具：Ollama。這是一個讓你在本機輕鬆運行大型語言模型的工具，支援Windows、macOS和Linux。

到Ollama官網下載對應你作業系統的版本，安裝後重開終端機。輸入以下指令確認安裝成功：

ollama --version

如果看到版本號，代表Ollama已經準備就緒。

第二步：下載並運行MiniCPM-V-4.6

這一步簡單到你可能會懷疑是不是搞錯了。只需要一行指令：

ollama run openbmb/minicpm-v-4.6

Ollama會自動從HuggingFace下載模型檔案。根據你的網路速度，這個過程可能需要5到15分鐘。檔案大小約4GB，所以請確保你的網路穩定。

下載完成後，你會看到一個提示符號，代表模型已經成功載入。這時候，你可以直接輸入文字和它對話。

試試看：

>>> 你好，請自我介紹

它會回覆你一段自我介紹，說明自己是MiniCPM-V-4.6，一個多模態AI模型。

但這還只是文字模式。要讓它「看」圖片，我們需要多一步設定。

第三步：讓AI看懂圖片

Ollama支援多模態的方式非常直覺。你只需要在提問時附上圖片路徑。

假設你有一張照片叫cat.jpg，放在桌面。在終端機輸入：

>>> 請描述這張圖片中的內容 /Users/你的使用者名稱/Desktop/cat.jpg

（Windows使用者請用反斜線，例如 C:\Users\你的使用者名稱\Desktop\cat.jpg）

你會看到AI開始分析圖片，然後生成描述。例如：

「這是一隻橘色的貓咪，正躺在沙發上曬太陽。牠的眼睛半閉著，看起來很放鬆。背景可以看到一個書架和幾盆植物。」

這還只是基本功能。你可以問更具體的問題：

「這隻貓是什麼品種？」
「圖片中有幾本書？」
「這張照片是在白天還是晚上拍的？」

MiniCPM-V-4.6的圖片理解能力非常驚人，它甚至能讀取圖片中的文字。你可以試著拍一張菜單的照片，然後問：「這家餐廳最貴的套餐多少錢？」

進階技巧： 如果你想一次分析多張圖片，可以在同一個對話中連續上傳。AI會記住之前的圖片內容，進行比較分析。

第四步：用程式碼實現自動化

如果你只想偶爾用用，上面的步驟已經夠了。但如果你是開發者，想要把MiniCPM-V-4.6整合到自己的應用中，我們需要寫幾行程式碼。

首先，安裝Python的Ollama套件：

pip install ollama

然後，建立一個新的Python檔案，例如analyze.py，貼上以下程式碼：

import ollama

# 定義圖片路徑
image_path = "your_image.jpg"

# 向模型發送請求
response = ollama.chat(
    model="openbmb/minicpm-v-4.6",
    messages=[
        {
            "role": "user",
            "content": "請詳細描述這張圖片，並分析其中可能隱含的情緒",
            "images": [image_path]
        }
    ]
)

# 輸出結果
print(response["message"]["content"])

把your_image.jpg換成你的圖片路徑，然後執行：

python analyze.py

你會看到AI的分析結果直接輸出在終端機上。

實戰案例： 假設你是電商賣家，每天要處理上百張產品照片。你可以寫一個批次處理腳本，讓AI自動為每張照片生成產品描述。只要把圖片路徑存在一個清單中，用迴圈逐一處理就好。

更進階的用法是串接API。你可以建立一個簡單的Flask伺服器，讓其他應用透過HTTP請求呼叫MiniCPM-V-4.6。這樣你的團隊成員就能透過網頁介面上傳圖片，不用每個人都裝Ollama。

第五步：最佳化效能與常見問題

你可能會遇到一些效能問題，尤其是用舊電腦跑的時候。以下是幾個實用技巧：

1. 減少模型精度 如果你記憶體不足，可以改用量化版本。在Ollama中，你可以指定使用4位元量化模型：

ollama run openbmb/minicpm-v-4.6:q4_K_M

這個版本會犧牲一點點準確度，但記憶體用量直接砍半，從4GB降到2GB左右。

2. 使用GPU加速 如果你有NVIDIA顯卡，Ollama會自動偵測並使用CUDA加速。確認GPU是否啟用：

ollama ps

如果顯示GPU: true，代表加速已啟用。沒有的話，檢查是否安裝了NVIDIA驅動和CUDA工具包。

3. 批次處理大量圖片 如果你要分析幾百張圖片，不要一次全部丟進去。建議每次處理10張，休息幾秒，避免記憶體爆掉。可以用Python的time.sleep()控制節奏。

4. 模型檔案位置 Ollama的模型預設存放在：

Windows：C:\Users\你的使用者名稱\.ollama\models
macOS：~/.ollama/models
Linux：~/.ollama/models

如果你硬碟空間不夠，可以建立符號連結（Symbolic Link）把模型移到其他磁碟。

真實案例：香港中小企業如何使用？

我訪問了一位在香港經營小型設計工作室的朋友，他上週開始用MiniCPM-V-4.6處理客戶的設計稿。以前，他們需要人工檢查每張圖片的解析度、色彩模式和文字內容，每天要花2小時。現在，他們寫了一個腳本，讓AI自動檢查圖片，輸出檢測報告。時間縮短到15分鐘，而且準確率接近100%。

他說了一句很中肯的話：「不是AI多厲害，而是它不會累。同樣的檢查工作，人類做100次就會出錯，AI做1000次還是一樣穩定。」

這就是開源模型的魅力。你不用付月費、不用擔心API改版、不用把客戶資料上傳到雲端。一切都在你的掌控之中。

你能用MiniCPM-V-4.6做什麼？

到目前為止，我們已經學會了如何在本地部署MiniCPM-V-4.6，讓它看懂圖片並回答問題。但這只是開始。真正的價值在於你如何應用它。

想想你的日常工作：你是不是經常需要查看截圖、掃描文件、分析圖表？這些都是MiniCPM-V-4.6的強項。它不能取代你的判斷力，但可以幫你省下大量時間，讓你把精力放在真正重要的事情上。

現在就去下載吧。試著拍一張你桌上的東西，問AI看到了什麼。你可能會對答案感到驚訝。

常見問題

Q: MiniCPM-V-4.6 和 ChatGPT 哪個更強？ A: 在圖片理解能力上，MiniCPM-V-4.6 在某些任務（如光學字元辨識、細部描述）已經接近 GPT-4V。但在複雜推理和創造性寫作上，ChatGPT 仍佔優勢。最大的差別是 MiniCPM-V-4.6 完全免費且離線運行。

Q: 我的電腦只有 8GB 記憶體，跑得動嗎？ A: 可以，但建議使用量化版本（如 q4_K_M）。8GB 記憶體跑原版模型可能會遇到卡頓，但量化版本只需約 2GB 記憶體，順暢運行。

Q: 可以用在 iPhone 或 Android 手機上嗎？ A: 目前 Ollama 支援 macOS、Windows 和 Linux，但已經有社群開發者成功在 Android 上透過 Termux 運行。iOS 則需要越獄。預計不久後就會有正式的移動端支援。

Q: 模型會不會儲存我的圖片？ A: 不會。所有處理都在本機記憶體中完成，關閉程式後資料即消失。Ollama 不會上傳你的圖片到任何伺服器。

Q: 如果分析結果不準確怎麼辦？ A: 可以嘗試更明確的提問方式，例如「請列出圖片中所有的文字」比「這張圖片有什麼？」更準確。也可以調整模型參數，用 ollama run openbmb/minicpm-v-4.6 --temperature 0.1 降低隨機性，讓答案更穩定。

🔍 搜尋文章

手機級AI模型｜看懂圖片還會寫詩

為什麼你該認識MiniCPM-V-4.6？

第一步：準備你的環境

第二步：下載並運行MiniCPM-V-4.6

第三步：讓AI看懂圖片

第四步：用程式碼實現自動化

第五步：最佳化效能與常見問題

真實案例：香港中小企業如何使用？

你能用MiniCPM-V-4.6做什麼？

延伸閱讀

常見問題

🔍 搜尋文章

📬 每週 AI 精選

手機級AI模型｜看懂圖片還會寫詩

為什麼你該認識MiniCPM-V-4.6？

第一步：準備你的環境

第二步：下載並運行MiniCPM-V-4.6

第三步：讓AI看懂圖片

第四步：用程式碼實現自動化

第五步：最佳化效能與常見問題

真實案例：香港中小企業如何使用？

你能用MiniCPM-V-4.6做什麼？

延伸閱讀

常見問題

相關文章

一張收據一秒搞定｜免費OCR太神了

90%的人不知道！|這招快十倍

30秒搞定！|手寫單據變文字