應對大模型安全需設好緊箍咒

第A15版：經濟

放大+ 缩小- 默认o

應對大模型安全需設好緊箍咒

【中新社上海七日電】以“科技 · 創造可持續未來”為主題的2023 Inclusion · 外灘大會七日開幕。大模型成為大會關鍵詞，大模型安全等“冷思考”也成為專家關注重點。

美國科學院院士、美國工程院院士、英國皇家學會外籍院士邁克爾 · 喬丹(Michael I.Jordan)表示，ChatGPT無法確定自己所寫內容的正確性，因為它技術上是存在問題的，這個問題它還沒有真正有效解決。在講到“不確定”時，人非常擅長處理溝通以及應對不確定信息，ChatGPT沒有辦法量化不確定性，要找到可能的方法去應對這些挑戰。

針對大模型的安全問題，中國科學院院士何積豐認為，主要體現在未經同意下，收集、使用和洩露個人信息。隱私問題既可能發生在訓練過程，也可能發生在使用過程中，大模型的生成能力則讓“隱私洩露”的方式變得多樣化，造成隱私保護更加困難。

“為應對這些問題，我們需要大模型對齊技術。”何積豐說，“對齊”是指系統的目標和人類價值觀一致，令其符合設計者的利益和預期，不會產生意外的有害後果。“如果把人工智能看作西遊記裡的孫悟空，‘對齊’就是唐僧的緊箍咒。有了緊箍咒，就可保證技術不會任意使用能力胡作非為。”

AI不會替代人

何積豐介紹，反饋強化學習是實現對齊的技術途徑，目前有兩種方式，一是通過人工反饋給模型不同的獎勵信號，引導模型的高質量輸出；另一種方式是事先給大模型提供明確的原則，系統自動訓練模型對所有生成的輸出結果提供初始排序。“這意味着，不僅智能系統需要向人類價值觀對齊，人類的訓練方法也要向價值觀對齊。”

邁克爾 · 喬丹強調，人工智能不會替代人，它只是一個新的工程系統。“科技是一個很好的工程系統，它應服務每個人，應該是公平、誠實、透明、穩定的，這些特性是整個工程系統的特點，而不是系統當中個體的特點。”

放大+ 缩小- 默认o

應對大模型安全 需設好緊箍咒

應對大模型安全需設好緊箍咒