五分鐘學會!|下載開源AI模型

你還在苦等下載進度條卡住?

最近開源AI模型大爆發,從DeepSeek V4 Pro到Qwen3.6-27B,每個都號稱「媲美GPT、完全免費」。但很多香港和台灣的朋友卡在第一步:下載模型。明明官網寫著「一鍵下載」,結果點下去後進度條卡在50%不動,或者下載到一半斷線,氣得想砸電腦。

這不是你的問題,是方法不對。HuggingFace是全世界最大的AI模型倉庫,但它的伺服器在歐美,從亞洲下載大型模型(動輒10GB到100GB)時,網路延遲和掉封包是常態。今天這篇教學,就是要教你如何在五分鐘內,用最穩定的方式把模型抓下來,不管你是用Mac、Windows還是Linux,通通適用。

為什麼下載會卡住?先搞懂這三件事

在下載之前,你需要知道三個核心概念,這能幫你省下大量試錯時間。

第一,模型檔案不是一個檔案,是一包資料夾。 很多人以為點擊一個「下載按鈕」就能拿到一個完整的模型檔。實際上,一個開源模型在HuggingFace上是一整個資料夾,裡面包含多個檔案:模型權重(.safetensors或.bin)、設定檔(config.json)、tokenizer檔案、和說明文件。如果你只下載其中一個檔案,模型根本跑不起來。

第二,檔案大小比你以為的大很多。 一個7B參數的模型(像是Qwen3.6-27B的縮小版),光主權重檔就超過5GB。27B參數的完整模型更是超過15GB。你的網路穩定嗎?你的硬碟空間夠嗎?這些都是下載前必須確認的。

第三,HuggingFace有流量限制。 如果你用瀏覽器直接下載,遇到尖峰時段或大型檔案,伺服器會限速甚至中斷連線。這就是為什麼很多人下載到一半跳錯誤的原因。

搞懂這三點後,我們來看看正確的下載方式。

方法一:用瀏覽器直接下載,但別踩這三個雷

最直覺的方法就是打開HuggingFace網頁,找到模型頁面,點擊「下載」按鈕。但這個方法有陷阱,很多人會在這裡卡關。

陷阱一:只下載了某一個檔案。 當你看到模型頁面時,會看到一排檔案列表,例如「model-00001-of-00008.safetensors」。很多人會直接點擊第一個檔案下載,然後想:「奇怪,怎麼只有一個檔案?」。正確做法是:回到頁面頂端,找到「Files and versions」分頁,把所有檔案都下載到同一個資料夾。

陷阱二:下載到一半斷線。 瀏覽器下載大型檔案時,遇到網路不穩就會中斷。解法很簡單:用支援續傳的下載工具。Windows用戶可以裝「Free Download Manager」或「IDM」;Mac用戶推薦「Folx」或「Neat Download Manager」。這些工具可以暫停、續傳,就算斷線了也不用重頭來過。

陷阱三:硬碟空間不夠。 下載前先確認你的硬碟剩餘空間。一個27B模型至少需要30GB空間(模型檔+解壓縮暫存)。打開你的「本機」或「Finder」,看看剩餘容量。如果不夠,先清理磁碟,或者買個外接SSD。

但說實話,用瀏覽器下載大型模型真的不是最佳解。接下來教你更專業的方法。

方法二:用Git LFS,一次搞定所有檔案

這是我最推薦的方法,尤其適合一次下載整個模型資料夾。Git LFS(Large File Storage)是GitHub和HuggingFace支援的大型檔案管理工具,可以讓你用指令一次拉取所有檔案,而且支援續傳和版本控制。

步驟一:安裝Git和Git LFS

先確認你的電腦有沒有Git。打開終端機(Mac/Linux)或命令提示字元(Windows),輸入:

git --version

如果顯示版本號碼,代表已經裝了。如果沒有,先去 git-scm.com 下載安裝。

接著安裝Git LFS:

  • Macbrew install git-lfs
  • Windows:下載安裝檔從 git-lfs.com
  • Linuxsudo apt install git-lfs(Ubuntu/Debian)或 sudo yum install git-lfs(CentOS)

安裝完後,在終端機輸入一次:

git lfs install

步驟二:用git clone下載整個模型

假設你想下載最近超紅的「Qwen/Qwen3.6-27B」,指令就是:

git clone https://huggingface.co/Qwen/Qwen3.6-27B

按下Enter後,Git會開始拉取整個資料夾。你會看到類似這樣的訊息:

Cloning into 'Qwen3.6-27B'...
remote: Enumerating objects: 1234, done.
remote: Counting objects: 100% (1234/1234), done.
remote: Compressing objects: 100% (567/567), done.
Receiving objects: 100% (1234/1234), 1.23 MiB | 1.5 MiB/s, done.
Resolving deltas: 100% (456/456), done.
Filtering content: 100% (12/12), 15.3 GiB | 8.2 MiB/s, done.

看到「Filtering content」那段,就代表Git LFS正在下載大型模型檔案。速度取決於你的網路,一般來說會比瀏覽器下載快,因為Git LFS用了更有效率的傳輸協定。

步驟三:等待完成

這一步最需要耐心。一個15GB的模型,在香港或台灣的100Mbps光纖網路下,大約需要20-30分鐘。如果是10GB的模型,大約15分鐘。過程中不要關閉終端機,也不要讓電腦進入睡眠模式。

小技巧: 如果你的網路不穩定,可以在clone指令後面加上 --depth 1,只下載最新的版本,節省時間和空間:

git clone --depth 1 https://huggingface.co/Qwen/Qwen3.6-27B

這個方法只會拉取目前最新的檔案,不會下載過去的版本歷史,對於只是想用模型的人來說完全足夠。

方法三:用HuggingFace CLI,專業玩家的選擇

如果你經常下載模型,建議安裝HuggingFace的命令列工具。它比Git LFS更輕量,而且專門為模型下載設計。

步驟一:安裝HuggingFace CLI

打開終端機,輸入:

pip install huggingface_hub

如果你沒有安裝Python,先去 python.org 下載並安裝。

步驟二:用指令下載模型

下載整個模型的指令非常簡單:

huggingface-cli download Qwen/Qwen3.6-27B --local-dir ./Qwen3.6-27B

看到 --local-dir 了嗎?這是告訴程式要把模型存到你指定的資料夾。如果不加這個參數,預設會存到快取資料夾(通常是 ~/.cache/huggingface/hub),下次要用時會自動讀取快取,不用重新下載。

步驟三:只下載特定檔案

如果你只需要推理模型(inference),不需要訓練用的檔案,可以指定只下載特定類型的檔案:

huggingface-cli download Qwen/Qwen3.6-27B --include "*.safetensors" --local-dir ./Qwen3.6-27B

這個指令只會下載 .safetensors 格式的權重檔案,跳過其他不相關的檔案,節省時間和空間。

香港台灣用戶的加速技巧:

HuggingFace的伺服器在美國,從亞洲下載速度有時很慢。你可以用鏡像站加速:

export HF_ENDPOINT=https://hf-mirror.com
huggingface-cli download Qwen/Qwen3.6-27B --local-dir ./Qwen3.6-27B

hf-mirror.com 是HuggingFace在中國的鏡像站,從香港和台灣連線速度通常比直接連美國快很多。注意:如果你在台灣,有些鏡像站可能被擋,但香港用戶通常可以順暢使用。

下載後怎麼用?一個簡單的測試

模型下載完成後,你總不能放著生灰塵。這裡教你一個最簡單的測試方法,用Python載入模型並問一個問題。

先安裝必要的套件:

pip install transformers torch accelerate

然後建立一個Python檔案(例如 test_model.py),貼上以下程式碼:

from transformers import AutoModelForCausalLM, AutoTokenizer

model_path = "./Qwen3.6-27B"  # 改成你的模型路徑

tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    device_map="auto",  # 自動分配到GPU或CPU
    torch_dtype="auto"
)

prompt = "請用繁體中文介紹香港的茶餐廳文化。"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)

outputs = model.generate(
    **inputs,
    max_new_tokens=200,
    temperature=0.7
)

print(tokenizer.decode(outputs[0], skip_special_tokens=True))

執行這個檔案:

python test_model.py

如果你的電腦有足夠的記憶體(27B模型建議32GB以上RAM,或者有RTX 4090以上的顯示卡),模型就會開始回答你的問題。如果記憶體不夠,你會看到記憶體錯誤(OOM),這時候可以試試用量化版本(GGUF或GPTQ格式),這些檔案更小,但需要搭配特定的載入工具。

延伸閱讀

常見問題

Q: 下載到一半網路斷線,要重頭來過嗎? A: 不用。如果你用Git LFS或HuggingFace CLI,它們都支援續傳。只要重新執行同樣的指令,它會從中斷的地方繼續下載,不會重頭開始。瀏覽器下載的話,建議用支援續傳的第三方工具。

Q: 我的硬碟空間不夠,下載完模型後可以刪掉哪些檔案? A: 模型下載完成後,可以刪掉 *.git 資料夾(如果使用Git clone)和 README.md 等非必要檔案。但最重要的 .safetensors 權重檔和 config.jsontokenizer.json 檔案不能刪。建議至少保留模型檔案的80%空間作為緩衝。

Q: 為什麼我用瀏覽器下載,檔案只有幾MB,不是說好幾GB嗎? A: 你可能只下載了「pointer file」(指標檔案),而不是實際的模型權重。HuggingFace用Git LFS管理大型檔案,瀏覽器直接點擊下載時,有時只會下載到一個文字檔,裡面記錄了實際檔案的位置。解決方法:改用Git LFS或HuggingFace CLI下載。

Q: 我下載了模型,但跑起來超慢,是哪裡設定錯了嗎? A: 這通常是硬體限制。27B參數的模型需要大量VRAM或RAM。如果你的電腦只有16GB記憶體,建議下載更小的模型(如7B或3B版本),或尋找量化版本(如GGUF格式)。量化模型會犧牲一點準確度,但能在普通電腦上運行。

Q: 香港和台灣用戶下載模型,速度慢到哭,有沒有加速方法? A: 有。第一,用 hf-mirror.com 鏡像站(前面有教學)。第二,選擇在離峰時間下載,例如凌晨2-6點,這段時間歐美用戶較少,頻寬比較充裕。第三,用Git LFS加上 --depth 1 參數,減少傳輸量。

<script type="application/ld+json">
{
  "@context": "https://schema.org",
  "@type": "FAQPage",
  "mainEntity": [
    {
      "@type": "Question",
      "name": "下載到一半網路斷線,要重頭來過嗎?",
      "acceptedAnswer": {
        "@type": "Answer",
        "text": "不用。如果你用Git LFS或HuggingFace CLI,它們都支援續傳。只要重新執行同樣的指令,它會從中斷的地方繼續下載,不會重頭開始。瀏覽器下載的話,建議用支援續傳的第三方工具。"
      }
    },
    {
      "@type": "Question",
      "name": "我的硬碟空間不夠,下載完模型後可以刪掉哪些檔案?",
      "acceptedAnswer": {
        "@type": "Answer",
        "text": "模型下載完成後,可以刪掉 .git 資料夾(如果使用Git clone)和 README.md 等非必要檔案。但最重要的 .safetensors 權重檔和 config.json、tokenizer.json 檔案不能刪。建議至少保留模型檔案的80%空間作為緩衝。"
      }
    },
    {
      "@type": "Question",
      "name": "為什麼我用瀏覽器下載,檔案只有幾MB,不是說好幾GB嗎?",
      "acceptedAnswer": {
        "@type": "Answer",
        "text": "你可能只下載了pointer file(指標檔案),而不是實際的模型權重。HuggingFace用Git LFS管理大型檔案,瀏覽器直接點擊下載時,有時只會下載到一個文字檔,裡面記錄了實際檔案的位置。解決方法:改用Git LFS或HuggingFace CLI下載。"
      }
    },
    {
      "@type": "Question",
      "name": "我下載了模型,但跑起來超慢,是哪裡設定錯了嗎?",
      "acceptedAnswer": {
        "@type": "Answer",
        "text": "這通常是硬體限制。27B參數的模型需要大量VRAM或RAM。如果你的電腦只有16GB記憶體,建議下載更小的模型(如7B或3B版本),或尋找量化版本(如GGUF格式)。量化模型會犧牲一點準確度,但能在普通電腦上運行。"
      }
    },
    {
      "@type": "Question",
      "name": "香港和台灣用戶下載模型,速度慢到哭,有沒有加速方法?",
      "acceptedAnswer": {
        "@type": "Answer",
        "text": "有。第一,用 hf-mirror.com 鏡像站(前面有教學)。第二,選擇在離峰時間下載,例如凌晨2-6點,這段時間歐美用戶較少,頻寬比較充裕。第三,用Git LFS加上 --depth 1 參數,減少傳輸量。"
      }
    }
  ]
}
</script>