簡介

大型語言模型 (LLMs) 因其在理解語言和輔助決策方面的強大能力,正越來越廣泛地被各行各業採用。然而,這種廣泛部署也使其成為攻擊的目標,包括 prompt 注入 (prompt injections) 和越獄 (jailbreaks)——這些是惡意製作的 prompt,目的為執行非預期的指令或繞過安全限制。為此,LLM 服務提供者開發了防護牆 (guardrail) 系統,用於檢查、允許或阻止 prompt 輸入和輸出,旨在偵測或淨化像越獄和 prompt 注入這樣的對抗性內容。防護牆可以過濾或阻止有害的 prompt,阻止它們到達 LLM,或阻止 LLM 回應有害內容。該系統評估內容是否違反這些安全措施,阻止有害或惡意回應,並防止它們影響 LLM 後續的輸出。防護牆通常依賴於 AI 驅動的偵測系統,例如文字分類模型。AI 分類模型正越來越多地被整合到防護牆系統中,用於分類和偵測惡意內容。這些模型隨後通常實作於 LLM 防護牆中,例如 LLM-Guard 和 Azure AI Content Safety。

儘管意圖良好,防護牆仍然容易受到規避技術的攻擊。原始論文展示了兩種繞過 LLM prompt 注入和越獄偵測系統的方法,包括傳統字元注入方法。AI 分類模型已被證明可透過利用過度依賴已學習的特徵以及訓練多樣性不足(透過對抗性擾動)來輕易規避。這表明相同的漏洞很可能存在於依賴基於 AI 偵測解決方案的 LLM 防護牆中。迄今為止,關於評估其潛在無效性或資安風險影響的實證研究仍然有限。

簡單字元注入,竟能讓 LLM 防護牆形同虛設?技術實測揭真相 | 資訊安全新聞

什麼是字元注入?

字元注入技術被定義為一種黑箱方法(black-box methods),透過注入系統無法正確處理的字元來操縱系統。這是資安領域中一個既定的攻擊媒介,常被用於攻擊軟體輸入欄位,如 SQL Injection 和 Command Injection。

在 AI 模型和 LLM 防護牆的背景下,字元注入已被證明是一種攻擊手段。底層的 LLM 能夠解釋編碼和修改過的文字,這意味著即使透過這些技術進行了模糊處理或更改,它們仍然可以理解並執行編碼過的 prompt 注入或越獄內容。原始論文探討了 12 種特定的字元注入技術以達到此目的。這些技術包括:

  • 數字 (Numbers) : 將字母映射到某些數字(例如,「H3110」代表「Hello」)。
  • 同形字 (Homoglyph) : 將字元替換為同形字。
  • 零寬度字元 (Zero Width) : 插入非列印字元 (\u200B)。
  • 附加符號 (Diacritics) : 將母音替換為其附加符號對應字元(例如,「hèllö」代表「hello」)。
  • 空格 (Spaces) : 在每個字母之間添加空格。
  • 底線重音符號 (Underline Accent Marks) : 使用 Unicode 對文字加上底線。
  • 倒立文字 (Upside Down Text) : 文字被上下翻轉。
  • 全形文字 (Full Width Text) : 字元變為全形。
  • 雙向文字 (Bidirectional Text) : 文字從右到左翻轉。
  • 刪除字元 (Deletion Characters) : 隨機刪除字元。
  • 表情符號夾帶 (Emoji Smuggling) : 文字嵌入在表情符號變體選擇器中。
  • Unicode 標籤夾帶 (Unicode Tag Smuggling) : 文字嵌入在 Unicode 標籤中。

字元注入技術被應用於一個自動化系統,此系統透過Unicode字元或字元夾帶(Character Smuggling)方法來修改輸入文字,以使其對分類器產生混淆。對每個 Dataset 樣本都施加擾動(Perturbations),並對檢測結果在攻擊前後進行評估。

實驗結果

評估結果顯示,字元注入技術在規避偵測方面非常有效。它們對攻擊者只需極少的努力,卻能達到顯著的成功率。

  • 攻擊成功率 (ASRs) : 研究發現字元注入技術可以達到高攻擊成功率 (ASR),其定義為修改後的對抗性 prompt 被錯誤分類為良性的比率。在某些情況下,甚至達到了 100% 的規避成功率。
  • 最有效的技術 : 表情符號夾帶(Emoji Smuggling)是最成功的技術,針對某些防護牆,對 prompt 注入和越獄均達到了 100% 的 ASR倒立文字對越獄達到了 100% 的 ASR。Unicode 標籤緊隨其後,ASRs 分別為 90.15% 和 81.79%。其他幾種攻擊也證明非常有效,包括數字 (Numbers) (81.18% / 94.62%)、雙向文字 (Bidirectional Text) (78.69% / 99.23%) 和倒立文字 (Upside Down Text) (63.54% / 100%)。附加符號 (Diacritics) 、同形字 (Homoglyphs)、零寬度字元 (Zero-Width Characters)、Unicode 底線 (Unicode Underlines) 和全形文字 (Full Width Text) 也能持續規避,在中等成功率,在跨資料集上達到平均 44-76% 的 ASR。
  • 最無效的技術 : 最無效的技術是刪除字元 (Deletion Characters),對 prompt 注入的 ASR 為 26.82%,對越獄的 ASR 為 7.95%。
  • 防護牆的易受攻擊性(Susceptibility) : 不同防護牆對這些攻擊的易受攻擊性各不相同。Vijil Prompt Injection 表現出最高的易受攻擊性,對 prompt 注入和越獄的平均 ASR 分別為 87.95% 和 91.67%。Protect AI v1 緊隨其後,ASR 分別為 77.32% 和 51.39%。Nvidia NeMo Guard Detect 在越獄攻擊下的 ASR 記錄為 72.54%。Azure Prompt Shield 在 prompt 注入和越獄攻擊下的平均 ASR 分別被繞過,達到 71.98% 和 60.15%。Meta Prompt Shield 表現出類似的易受攻擊性,ASRs 分別為 70.44% 和 73.08%。相比之下,Protect AI v2 顯示出比其前身顯著的改進,將 prompt 注入的 ASR 降低到 20.26%,僅被表情符號夾帶和 Unicode 標籤夾帶嚴重繞過。

為什麼字元注入可以規避

字元注入攻擊的有效性可能取決於所使用的特定字元擾動和目標防護牆模型的不同。分詞器 (tokenizer) 在對抗性文字上的訓練暴露程度和編碼策略的差異也扮演重要角色。在多樣化資料集上訓練的模型或具有更好泛化理解的模型可能更具抵抗力,而其他模型則因其在訓練期間遇到的特定內容而仍然容易受到攻擊。

關鍵在於,防護牆和 LLM 之間的關係揭示了它們處理輸入方式的差異。防護牆可能在與底層 LLM 完全不同的資料集上訓練。這可能導致防護牆無法偵測某些字元注入技術,而這些技術 LLM 本身卻可以完全理解和解釋。如字元注入技術可以完全規避防護牆的偵測。這構成了一個風險,因為繞過防護牆的輸入可能仍然會被 LLM 正確解釋。除了訓練資料的差異之外,防護牆可能還存在固有的設計差異——例如輸入大小和 Token 支援的限制——這些限制可以被利用來進一步規避分類。這些限制突顯了當前防護牆實作中的一個關鍵弱點,並表明進一步理解如何精心製作輸入以有意繞過防護牆同時對 LLM 保持完全可理解性的需求。

結論

儘管大型語言模型(LLM)防護欄系統的設計旨在防範提示詞注入與越獄攻擊,但研究揭示了當前防禦機制中令人警覺的漏洞。這些防護欄在很大程度上依賴於基於 AI 的偵測系統,而這些系統容易受到已知規避技術的攻擊。

特別令人擔憂的是,字元注入 (Character Injection) 技術展現了驚人的有效性,僅需極少努力就能幾乎完全規避某些防護欄的偵測。如同先前討論的視覺化,這些混亂的字元群——包含表情符號、Unicode 變體、以及其他經過巧妙偽裝的文字——能夠突破數位護盾。這揭露了一個關鍵弱點:由於底層 LLM 的設計使其能夠理解這些經過編碼或修改的文字,一旦輸入繞過防護欄,即使看起來雜亂無章,LLM 仍能正確解讀並執行潛在的惡意指令。

此外,對抗性機器學習 (AML) 規避技術也證明了其有效性,透過利用偵測模型的訓練盲點來產生難以察覺的攻擊。攻擊者甚至可以利用對「白箱」模型的理解來提升針對「黑箱」目標的攻擊成功率。

這些發現不僅是學術上的觀察,它們對 LLM 的廣泛部署構成了嚴峻的現實挑戰。成功的規避攻擊可能導致敏感資料洩漏、系統行為被惡意操控,進而損害組織聲譽或造成財務損失。

研究強烈建議,當前 LLM 防護欄系統的設計和訓練方式存在根本性缺陷。為了應對這些日益成熟的威脅,開發更強大、更能抵抗規避技術的防護機制已是刻不容緩。這場在 LLM 安全領域的攻防戰仍在持續,而理解並加強針對字元注入等簡單而有效攻擊的防禦,是確保這些強大 AI 工具被安全可靠使用的關鍵第一步。

Copyright © 2025 版權所有 翊天科技有限公司