GitHub 於三月底投下一顆震撼彈:自 2026 年 4 月 24 日起,Copilot Free、Pro 及 Pro+ 方案的用戶互動數據將預設被收集,用於訓練和改進 AI 模型。這項政策的突然轉向,立即在全球開發者社群引發劇烈反彈,也讓 AI 時代的數據隱私爭議再度浮上檯面。
GitHub 產品長 Mario Rodriguez 在官方部落格中解釋了這次變更的邏輯:真實世界的使用數據能讓模型變得更聰明。根據 GitHub 的內部測試,導入微軟員工的互動數據後,模型在多種程式語言中的建議採納率都顯著提升。公司認為這與業界慣例一致,最終將透過更好的程式碼建議和安全性提升惠及所有用戶。
然而,被收集的數據範圍之廣令許多開發者感到不安。根據更新後的隱私條款,GitHub 將收集的互動數據包括:用戶輸入的提示詞與程式碼片段、Copilot 產生並被接受或修改的輸出、游標位置周圍的程式碼上下文、註解與文件內容、檔案名稱與儲存庫結構,甚至用戶對建議的點讚或倒讚評價。換言之,開發者在使用 Copilot 過程中產生的幾乎所有互動行為,都可能成為 AI 的訓練素材。
GitHub 強調,這項變更不會影響私有儲存庫中「靜態存放」的原始碼,企業版(Business 和 Enterprise)用戶也不在收集範圍內。但批評者指出,當開發者在私有專案中使用 Copilot 時,其輸入的提示詞和產生的程式碼片段仍然會被收集——這意味著私有專案的邏輯與結構仍可能間接暴露。
對於已經在設定中選擇退出數據收集的用戶,GitHub 表示其偏好設定將被保留。但問題在於「預設開啟」的機制設計:大量從未主動調整過隱私設定的用戶,將在毫不知情的情況下成為 AI 訓練的數據來源。開發者社群普遍認為,合理的做法應該是預設關閉、讓用戶主動選擇加入(opt-in),而非要求用戶自行退出(opt-out)。
這場爭議的核心並非技術問題,而是信任問題。GitHub 是全球最大的程式碼託管平台,擁有超過一億開發者用戶,其母公司微軟同時是 OpenAI 的最大投資者。當平台既掌握了開發者的程式碼資產,又將這些資產用於訓練商業 AI 產品,利益衝突的隱憂不言而喻。
對於關注隱私的開發者而言,現在最迫切的行動是在 4 月 24 日前前往 GitHub 設定頁面的「Privacy」區塊,確認數據收集選項已關閉。而從更宏觀的角度來看,這起事件也為正在快速成形的全球 AI 監管框架提供了另一個值得深思的案例:當 AI 公司需要更多數據來提升模型能力時,用戶的知情權與選擇權應如何獲得保障?這是整個產業在追求技術進步的同時,必須認真面對的根本問題。