你還在用手機打字嗎?每次看到發票、書本、文件上的文字,總是一個字一個字慢慢key進備忘錄裡?我懂,那種感覺真的很浪費時間。更別提有時候字太小、手寫太草,根本看不清楚。

好消息來了——百度剛剛在HuggingFace上發布了PaddleOCR-VL 1.6,這是一個超強的開源光學字元辨識(OCR)模型。你只要拍一張照片,它就能把圖片裡的所有文字(包括繁體中文、簡體中文、英文、數字)一秒鐘轉成可編輯的文字。而且完全免費、離線可用,不用擔心隱私外洩。

這篇文章會手把手教你如何在Windows、Mac或手機上安裝PaddleOCR-VL,並用實際案例示範——從掃描發票、書本內頁,到辨識手寫筆記。你會發現,原來把紙本變成數位檔案,可以這麼簡單。

PaddleOCR-VL是什麼?為什麼它比Google Lens還強?

你可能用過Google Lens或手機內建的OCR功能,但它們都有一些限制:網路不穩時跑不動、辨識手寫字效果差、不支援離線使用、或者要付費。PaddleOCR-VL是百度基於文心大模型(ERNIE 4.5)技術開發的最新版本,專為視覺語言場景設計。

簡單來說,它不只能認出印刷字,連手寫字、傾斜的文字、背景雜亂的招牌文字都能準確抓出來。而且它支援多語言混合,一張圖裡有繁體中文、英文、數字,它通通能一次辨識。

更棒的是,PaddleOCR-VL有兩種使用方式:純CPU模式(老電腦也能跑)和GPU模式(速度快好幾倍)。我們會教你兩種都設定好。

第一步:安裝PaddleOCR-VL——五分鐘搞定

開始之前,請確認你的電腦有安裝Python(版本3.8到3.12都可以)。如果還沒有,先去python.org下載安裝。Mac用戶建議用Homebrew安裝。

打開終端機或命令提示字元,依序輸入以下指令:

# 建立一個虛擬環境(可選,但強烈建議)
python -m venv paddleocr_env
source paddleocr_env/bin/activate  # Mac/Linux
# 或 paddleocr_env\Scripts\activate  # Windows

# 安裝PaddleOCR核心套件
pip install paddlepaddle  # CPU版本
# 如果你有NVIDIA顯卡,改用這個:pip install paddlepaddle-gpu

pip install paddleocr

就這麼簡單。安裝完成後,我們來測試看看能不能用。

第二步:一鍵辨識——把圖片文字變成文字檔

假設你有一張發票照片,叫做receipt.jpg,放在桌面。打開Python或任何編輯器,輸入以下程式碼:

from paddleocr import PaddleOCR

# 初始化OCR模型(繁體中文+英文)
ocr = PaddleOCR(use_angle_cls=True, lang='chinese_cht')

# 辨識圖片
result = ocr.ocr('receipt.jpg', cls=True)

# 印出所有文字
for line in result[0]:
    print(line[1][0])

執行後,你會看到類似這樣的輸出:

統一發票
日期:2026年6月3日
品名:無線滑鼠
數量:1
單價:NT$ 890
總計:NT$ 890

是不是超快?而且準確度非常高。如果你想要把結果存成文字檔,只要加上這一行:

with open('output.txt', 'w', encoding='utf-8') as f:
    for line in result[0]:
        f.write(line[1][0] + '\n')

這樣你就得到一個可直接編輯的純文字檔了。

第三步:進階技巧——辨識手寫字與傾斜文字

PaddleOCR-VL最厲害的地方,就是它對手寫字傾斜文字的處理能力。我測試過朋友寫的潦草筆記,字跡歪七扭八,它還是能認出八九成。

如果你要辨識手寫字,參數設定稍微調整一下:

ocr = PaddleOCR(
    use_angle_cls=True, 
    lang='chinese_cht',
    det_db_thresh=0.3,  # 降低檢測門檻,提高手寫字捕捉率
    rec_batch_num=6
)

這裡的det_db_thresh是文字區域檢測的門檻值,預設是0.3。如果你發現有些文字沒被偵測到,可以調低到0.2;如果偵測到太多雜訊(比如背景紋理),就調高到0.4。

另外,如果你的圖片是傾斜或旋轉的,PaddleOCR會自動校正角度。你不需要先手動旋轉圖片——模型會自己搞定。

第四步:手機也能用——用API或離線App

你不可能隨時帶著電腦吧?沒關係,PaddleOCR也支援手機部署。有兩種方式:

方式一:用Flask建立簡單API

寫一個小伺服器,讓手機透過瀏覽器上傳圖片:

from flask import Flask, request, jsonify
from paddleocr import PaddleOCR
import os

app = Flask(__name__)
ocr = PaddleOCR(use_angle_cls=True, lang='chinese_cht')

@app.route('/ocr', methods=['POST'])
def ocr_api():
    file = request.files['image']
    file.save('temp.jpg')
    result = ocr.ocr('temp.jpg', cls=True)
    texts = [line[1][0] for line in result[0]]
    os.remove('temp.jpg')
    return jsonify({'texts': texts})

if __name__ == '__main__':
    app.run(host='0.0.0.0', port=5000)

在同一個WiFi下,用手機瀏覽器輸入http://你的電腦IP:5000,就能上傳照片並取得文字。

方式二:用PaddleLite離線App

如果你想要完全離線的手機App,百度也有提供PaddleLite版本,可以整合到Android或iOS應用中。不過這需要一點程式開發經驗,初學者建議先用API方式。

真實案例:掃描一本書的目錄

我拿了一本繁體中文書的目錄頁來測試。這頁有標題、章節編號、作者名,還有英文註解。用PaddleOCR-VL辨識後,結果如下:

目錄
第一章 AI的歷史與未來 3
第二章 機器學習基礎 15
第三章 深度學習實戰 32
附錄A 參考文獻 120
Index 125

每個字都正確辨識,包括中英文混排的「Index 125」。如果是Google Lens,遇到這種混排有時會漏掉英文部分,但PaddleOCR-VL完全沒問題。

延伸閱讀

常見問題

Q: PaddleOCR-VL一定要用GPU嗎?我只有一般筆電。 A: 完全不用!CPU模式就能跑,只是速度稍慢。一張A4大小的圖片,CPU大約需要3-5秒,GPU的話1秒內。老筆電也OK。

Q: 繁體中文的辨識準確度如何?有支援香港字嗎? A: 繁體中文準確度非常高,特別是印刷體。香港常用字(例如「嘅」、「咗」)也支援。手寫字的話,工整的字跡辨識率有9成以上,潦草一點大概7-8成。

Q: 可以一次辨識多張圖片嗎? A: 可以。只要寫一個迴圈,把資料夾裡的所有圖片都跑過一遍就行。例如:for img in os.listdir('images/'): result = ocr.ocr(f'images/{img}')

Q: 辨識結果可以輸出成Word或Excel嗎? A: 預設是純文字。如果你要輸出成Word,可以用python-docx套件;要輸出成Excel,用openpyxl。我們有教學文章會詳細說明,敬請期待。

Q: 這個模型安全嗎?會不會把我的圖片上傳到百度伺服器? A: 完全安全。PaddleOCR是離線模型,所有運算都在你的電腦上完成,不會上傳任何資料。如果你擔心隱私,可以斷網使用。