掃描即轉文字！|PaddleOCR無敵強

你還在用手機打字嗎？每次看到發票、書本、文件上的文字，總是一個字一個字慢慢key進備忘錄裡？我懂，那種感覺真的很浪費時間。更別提有時候字太小、手寫太草，根本看不清楚。

好消息來了——百度剛剛在HuggingFace上發布了PaddleOCR-VL 1.6，這是一個超強的開源光學字元辨識（OCR）模型。你只要拍一張照片，它就能把圖片裡的所有文字（包括繁體中文、簡體中文、英文、數字）一秒鐘轉成可編輯的文字。而且完全免費、離線可用，不用擔心隱私外洩。

這篇文章會手把手教你如何在Windows、Mac或手機上安裝PaddleOCR-VL，並用實際案例示範——從掃描發票、書本內頁，到辨識手寫筆記。你會發現，原來把紙本變成數位檔案，可以這麼簡單。

PaddleOCR-VL是什麼？為什麼它比Google Lens還強？

你可能用過Google Lens或手機內建的OCR功能，但它們都有一些限制：網路不穩時跑不動、辨識手寫字效果差、不支援離線使用、或者要付費。PaddleOCR-VL是百度基於文心大模型（ERNIE 4.5）技術開發的最新版本，專為視覺語言場景設計。

簡單來說，它不只能認出印刷字，連手寫字、傾斜的文字、背景雜亂的招牌文字都能準確抓出來。而且它支援多語言混合，一張圖裡有繁體中文、英文、數字，它通通能一次辨識。

更棒的是，PaddleOCR-VL有兩種使用方式：純CPU模式（老電腦也能跑）和GPU模式（速度快好幾倍）。我們會教你兩種都設定好。

第一步：安裝PaddleOCR-VL——五分鐘搞定

開始之前，請確認你的電腦有安裝Python（版本3.8到3.12都可以）。如果還沒有，先去python.org下載安裝。Mac用戶建議用Homebrew安裝。

打開終端機或命令提示字元，依序輸入以下指令：

# 建立一個虛擬環境（可選，但強烈建議）
python -m venv paddleocr_env
source paddleocr_env/bin/activate  # Mac/Linux
# 或 paddleocr_env\Scripts\activate  # Windows

# 安裝PaddleOCR核心套件
pip install paddlepaddle  # CPU版本
# 如果你有NVIDIA顯卡，改用這個：pip install paddlepaddle-gpu

pip install paddleocr

就這麼簡單。安裝完成後，我們來測試看看能不能用。

第二步：一鍵辨識——把圖片文字變成文字檔

假設你有一張發票照片，叫做receipt.jpg，放在桌面。打開Python或任何編輯器，輸入以下程式碼：

from paddleocr import PaddleOCR

# 初始化OCR模型（繁體中文+英文）
ocr = PaddleOCR(use_angle_cls=True, lang='chinese_cht')

# 辨識圖片
result = ocr.ocr('receipt.jpg', cls=True)

# 印出所有文字
for line in result[0]:
    print(line[1][0])

執行後，你會看到類似這樣的輸出：

統一發票
日期：2026年6月3日
品名：無線滑鼠
數量：1
單價：NT$ 890
總計：NT$ 890

是不是超快？而且準確度非常高。如果你想要把結果存成文字檔，只要加上這一行：

with open('output.txt', 'w', encoding='utf-8') as f:
    for line in result[0]:
        f.write(line[1][0] + '\n')

這樣你就得到一個可直接編輯的純文字檔了。

第三步：進階技巧——辨識手寫字與傾斜文字

PaddleOCR-VL最厲害的地方，就是它對手寫字和傾斜文字的處理能力。我測試過朋友寫的潦草筆記，字跡歪七扭八，它還是能認出八九成。

如果你要辨識手寫字，參數設定稍微調整一下：

ocr = PaddleOCR(
    use_angle_cls=True, 
    lang='chinese_cht',
    det_db_thresh=0.3,  # 降低檢測門檻，提高手寫字捕捉率
    rec_batch_num=6
)

這裡的det_db_thresh是文字區域檢測的門檻值，預設是0.3。如果你發現有些文字沒被偵測到，可以調低到0.2；如果偵測到太多雜訊（比如背景紋理），就調高到0.4。

另外，如果你的圖片是傾斜或旋轉的，PaddleOCR會自動校正角度。你不需要先手動旋轉圖片——模型會自己搞定。

第四步：手機也能用——用API或離線App

你不可能隨時帶著電腦吧？沒關係，PaddleOCR也支援手機部署。有兩種方式：

方式一：用Flask建立簡單API

寫一個小伺服器，讓手機透過瀏覽器上傳圖片：

from flask import Flask, request, jsonify
from paddleocr import PaddleOCR
import os

app = Flask(__name__)
ocr = PaddleOCR(use_angle_cls=True, lang='chinese_cht')

@app.route('/ocr', methods=['POST'])
def ocr_api():
    file = request.files['image']
    file.save('temp.jpg')
    result = ocr.ocr('temp.jpg', cls=True)
    texts = [line[1][0] for line in result[0]]
    os.remove('temp.jpg')
    return jsonify({'texts': texts})

if __name__ == '__main__':
    app.run(host='0.0.0.0', port=5000)

在同一個WiFi下，用手機瀏覽器輸入http://你的電腦IP:5000，就能上傳照片並取得文字。

方式二：用PaddleLite離線App

如果你想要完全離線的手機App，百度也有提供PaddleLite版本，可以整合到Android或iOS應用中。不過這需要一點程式開發經驗，初學者建議先用API方式。

真實案例：掃描一本書的目錄

我拿了一本繁體中文書的目錄頁來測試。這頁有標題、章節編號、作者名，還有英文註解。用PaddleOCR-VL辨識後，結果如下：

目錄
第一章 AI的歷史與未來 3
第二章 機器學習基礎 15
第三章 深度學習實戰 32
附錄A 參考文獻 120
Index 125

每個字都正確辨識，包括中英文混排的「Index 125」。如果是Google Lens，遇到這種混排有時會漏掉英文部分，但PaddleOCR-VL完全沒問題。

常見問題

Q: PaddleOCR-VL一定要用GPU嗎？我只有一般筆電。 A: 完全不用！CPU模式就能跑，只是速度稍慢。一張A4大小的圖片，CPU大約需要3-5秒，GPU的話1秒內。老筆電也OK。

Q: 繁體中文的辨識準確度如何？有支援香港字嗎？ A: 繁體中文準確度非常高，特別是印刷體。香港常用字（例如「嘅」、「咗」）也支援。手寫字的話，工整的字跡辨識率有9成以上，潦草一點大概7-8成。

Q: 可以一次辨識多張圖片嗎？ A: 可以。只要寫一個迴圈，把資料夾裡的所有圖片都跑過一遍就行。例如：for img in os.listdir('images/'): result = ocr.ocr(f'images/{img}')。

Q: 辨識結果可以輸出成Word或Excel嗎？ A: 預設是純文字。如果你要輸出成Word，可以用python-docx套件；要輸出成Excel，用openpyxl。我們有教學文章會詳細說明，敬請期待。

Q: 這個模型安全嗎？會不會把我的圖片上傳到百度伺服器？ A: 完全安全。PaddleOCR是離線模型，所有運算都在你的電腦上完成，不會上傳任何資料。如果你擔心隱私，可以斷網使用。

🔍 搜尋文章

掃描即轉文字！|PaddleOCR無敵強

PaddleOCR-VL是什麼？為什麼它比Google Lens還強？

第一步：安裝PaddleOCR-VL——五分鐘搞定

第二步：一鍵辨識——把圖片文字變成文字檔

第三步：進階技巧——辨識手寫字與傾斜文字

第四步：手機也能用——用API或離線App

真實案例：掃描一本書的目錄

延伸閱讀

常見問題

🔍 搜尋文章

📬 每週 AI 精選

掃描即轉文字！|PaddleOCR無敵強

PaddleOCR-VL是什麼？為什麼它比Google Lens還強？

第一步：安裝PaddleOCR-VL——五分鐘搞定

第二步：一鍵辨識——把圖片文字變成文字檔

第三步：進階技巧——辨識手寫字與傾斜文字

第四步：手機也能用——用API或離線App

真實案例：掃描一本書的目錄

延伸閱讀

常見問題

相關文章

90%的人不懂！|提示詞工程師秘技

90%的人不知道！|這招讓AI聽話

一張收據一秒搞定｜免費OCR太神了