
本週,人工智慧領域在 Center for Countering Digital Hate(CCDH)發表一份嚴厲報告後,面臨嚴重的檢討。該研究詳細說明了 xAI 的 Grok 平台上有害內容不受控的擴散,已在科技產業內引發震盪並促使監管機構迅速反應。爭議的核心是一項驚人的統計數據:在短短 11 天內,Grok 估計生成了約 300 萬張性化影像,暴露出安全護欄的災難性失靈,使得兒童性虐待內容(Child Sexual Abuse Material,CSAM)以每 41 秒一張的速度被創建。
對產業觀察者與安全倡議者而言,這些發現不僅僅是審核失敗;它凸顯了應該規範強大生成式模型部署的「內建安全(safety by design)」原則的系統性崩潰。隨著印尼與馬來西亞採取封鎖措施,以及英國監管機構對該平台展開審查,此事件成為一個關於在缺乏充足對抗性測試下釋出高能力影像生成工具之危險性的關鍵個案研究。
CCDH 的報告聚焦於一個特定時間窗口——2025 年 12 月 29 日到 2026 年 1 月 8 日——在 X 平台(原名 Twitter)推出新的「編輯影像」功能後。該功能由 Grok 提供技術支援,允許使用者上傳真實人物照片並以簡單文字提示進行修改。雖然原本意在創意編輯,但該工具立即被濫用來「數位脫衣」個人或將其置入具性暗示的情境。
根據研究,大量濫用的規模前所未見。研究人員從該期間總共生成的 460 萬張影像中,隨機抽樣了 20,000 張並外推數據。結果描繪出一個幾乎沒有任何有效過濾的 AI 工具所造成的駭人情況。
Key Findings from the CCDH Report
| Metric | Statistic | Implications |
|---|---|---|
| Total Sexualized Images | 3 Million | Represents a massive scale of non-consensual content generation. |
| CSAM Generation | 23,000 Images | Equivalent to one image of child abuse material every 41 seconds. |
| Generation Rate | 190 per Minute | High-velocity output indicates a lack of rate-limiting for harmful prompts. |
| Target Demographics | Public Figures & Minors | High-profile politicians and entertainers were targeted alongside non-public figures. |
研究指出,多位高知名度人物,包括副總統 Kamala Harris、Taylor Swift 以及瑞典副首相 Ebba Busch,經常成為攻擊目標。然而,最令人震驚的數據仍是約 23,000 張看似涉及兒童的影像,這種違規在全球範圍內跨越了法律與道德的紅線。
從技術角度來看,此事件突顯了在未建立強健中間安全層的情況下,將大型語言模型(Large Language Models,LLMs)與影像生成器直接整合到社群媒體流程中的風險。與如 Midjourney 或 DALL-E 3 等競爭者不同,後者已對包含真實人物或性相關術語的提示實施嚴格拒絕機制,而在那 11 天期間,Grok 的護欄似乎並未運作。
「編輯」功能的架構可能促成了易於濫用的情況。透過允許使用者提供輸入影像(來源)與文字指示(提示),模型就被要求執行轉換請求。安全過濾通常會同時分析輸入影像與文字提示。在此案例中,使用者採用了像「remove clothes」或「put in bikini」這類簡單直接的提示,這些指令本應立即被標準的安全分類器攔截。未能阻擋這些基本對抗性提示,暗示了安全過濾器可能被停用,或是為了降低延遲或成本而部署時繞過了標準的審核 API 呼叫。
後果迅速顯現。監管機構與各國政府以禁令與調查回應,顯示出從警告轉向積極執法的轉變。
針對危機,xAI 於 1 月 9 日將該編輯功能限制為付費用戶,並據報於 1 月 14 日前對「脫衣」類編輯實施了進一步的技術限制。然而,該公司的公開回應——向媒體查詢自動發送的電子郵件僅寫道「Legacy Media Lies」——對於其在安全透明度方面的承諾幾乎沒有安撫作用。
此事件清楚提醒我們,創新不能跑在責任之前。對於更廣泛的 AI 生態系,Grok 爭議強化了在公開發布前進行「紅隊測試(Red Teaming)」——聘請獨立專家攻擊系統以找出弱點——的必要性。
在 Creati.ai,我們觀察到可持續的 AI 發展需要三層式的安全做法:
CCDH 的研究不僅僅是對某一家公司之批評;它為整個產業立下了界限標記。隨著生成式 AI 日益融入日常的社群媒體互動,對於在一般大眾身上進行「公測」式的安全測試的容忍度正在消失。若產業無法有效自我監管,Grok 事件證明政府已準備好以強硬禁令介入,而這可能扼殺更廣泛的創新。