NVIDIA安全研究人員揭示了一種新型多模態提示注入技術,攻擊者不再依賴隱藏文本,而是使用表情符號序列、謎語或視覺符號等非傳統輸入方式來操控AI系統[1]。這種’語義提示注入’利用了現代多模態AI模型的架構特性——如Llama 4、Google Gemini等模型采用的’早期融合’技術,這些模型在共享的潛在空間中對文本和圖像進行對齊,實現了跨模態的無縫推理[1]。
傳統安全防護主要依賴OCR識別圖像中的文本和關鍵詞過濾,但隨著AI模型原生視覺推理能力的提升,這些防御措施已形同虛設[1]。例如,當模型處理一張包含特定視覺符號的圖片時,它能直接將這些符號映射到語義空間,而無需先識別出其中的文本內容,從而繞過基于文本的安全檢查[1]。這種攻擊方式使攻擊者能夠通過看似無害的視覺輸入,如表情符號序列或謎語式圖像,誘導AI執行惡意指令[1]。