隨著大模型的興起,人們存在一種常見的誤解,即認為所謂“對齊”(alignment)就是讓模型輸出人類滿意的內容,但實際上其內涵遠不止于此。過去十年,隨著研究人員在“深度學習”領域的研究日益深入,AI社區(qū)的關鍵詞也隨之完成了從“AI safety”到“AI alignment”的轉變。在該領域,人們一以貫之的討論方向是:考慮到高級AI系統與人類社會的相互作用和相互影響,我們應如何防止其可能帶來的災難性風險?具體來說,“價值對齊”就是應確保人工智能追求與人類價值觀相匹配的目標,確保AI以對人類和社會有益的方式行事,不對人類的價值和權利造成干擾和傷害。
“風險模型”是指如果AI真的能夠帶來風險,那么這一風險的實現方式究竟是什么?總體而言,AI價值對齊的風險模型可以劃分為三大類。第一類是在理論和實踐上已經存在比較廣泛研究的問題(theoretically established and empirically observed);第二類是更多能在實驗中觀測到,但目前在理論上還沒有更深入的研究,但值得繼續(xù)深入開拓的問題(empirically observed);第三類則屬于猜想性問題(hypothetical),即當下我們并未在實驗中觀測到,但可以通過構造實驗去觀測人工智能是否具備某種能力。下述三種風險模型即分屬此三類問題。
最后,對AI“幻覺”(hallucination)問題的研究對于提高模型魯棒性同樣具有重要意義。由于大語言模型可能會輸出錯誤的或者不存在的事實,這可能源于訓練數據中的錯誤或虛假信息,也可能是過度創(chuàng)造的副產物。因此,讓大模型在創(chuàng)造性和真實性之間做好平衡同樣是一個技術難題。
第二個風險模型:獎勵作弊和錯誤設定(Reward hacking & Misspecification)
獎勵作弊和錯誤設定問題主要來源于經驗觀察。在強化學習中,AI的目標是最大化最終得到的獎勵,但即使定義了一項正確的獎勵,其實現方式也可能不盡如人意。[5]例如,在一個以劃船競速為主題的電子游戲中,人工智能系統的目標是完成比賽,并通過撞擊對手船只來獲得分數。但是它在其中找到了漏洞,發(fā)現可以通過無限撞擊相同目標來獲取高分,由此利用漏洞達成了獲取獎勵的目的。
此外,與之相關的還有情景感知(situational awareness)這一猜想性問題。即AI是否知道其正處于測試環(huán)境,這種感知本身又是否會影響其表現?近期,OpenAI、紐約大學、牛津大學的研究人員發(fā)現,大語言模型能夠感知自身所處的情景,為了通過測試會隱藏信息欺騙人類,而研究人員通過實驗可以提前預知和觀察這種感知能力。[8]
第三個風險模型:權力尋求(power seeking)
權力尋求是指具備戰(zhàn)略感知能力的系統(不限于AGI)可能會采取行動,尋求擴張自身對周邊環(huán)境的影響力。權力尋求問題是一項假設的但是合理的問題(hypothetical but reasonable questions),因為能力“涌現”背后潛藏著失控風險。恰如Jacob Steinhardt在其文章中所提到的:“如果一個系統實現某個目標需要考慮大量不同的可能政策方案,那么它就具有很強的優(yōu)化能力”。[9]圖靈獎得主Geoffrey Hinton在演講中有提到,如果讓AI去最大化實現其目標,一個合適的子目標可能就是尋求更多的影響力、說服人類或拿到更多的金錢等,但這一過程是否安全,權力攫取到達什么程度需要被注意到,以及如果給予AI足夠大的政策空間是否會帶來人類無法接受的后果等一系列問題都值得關注。
針對上述風險模型的具體解決方案,并非聚焦于如何訓練更強大的模型,相反更強大的模型可能具有更大的風險,因此我們應考慮怎樣在不加劇風險的情況下嘗試解決問題。以下介紹目前AI價值對齊社區(qū)比較關注的四個主要方向。
三是策略模型的問題(Challenges with the Policy)。一方面,對策略模型(policy)而言,高效地優(yōu)化強化學習是一件困難的事情;輸入對抗樣本情況下,策略模型可能會被反向利用;預訓練模型會給策略優(yōu)化帶來偏差;強化模型可能會出現模式坍縮(mode collapse)。這里更根本的問題是即使在訓練過程中看到的獎勵完全正確,策略在部署過程中也可能表現不佳;而最佳強化學習代理則傾向于尋求權力(power seeking)。另一方面,當我們考慮到獎勵函數的學習后,在聯合訓練(joint training)的同時優(yōu)化一個策略模型可能會帶來一系列問題。例如這一過程可能會導致分布轉移;很難在效率和避免策略過度擬合之間取得平衡。這里更根本的問題是優(yōu)化不完美的獎勵代理會導致獎勵作弊(reward hacking)。
總而言之,RLHF目前仍存在諸多問題,值得世界各地學者進一步展開研究。同時正是由于RLHF本身存在很多根本性問題,單純依靠這一解決思路可能不足以解決AI價值對齊領域的所有問題,我們還需要其他方向的研究來共同解決這一問題。
(二)可擴展監(jiān)督(Scalable oversight)
第二類解決思路為可擴展監(jiān)督(scalable oversight),即如何監(jiān)督一個在特定領域表現超出人類的系統。人們要在AI所提供的看似具有說服力的反饋中分辨出不真實的內容需要花費大量時間和精力,而可擴展監(jiān)督即旨在降低成本,協助人類更好地監(jiān)督人工智能。[13]2018年Paul Christiano在播客中表示相較于開發(fā)可擴展監(jiān)督技術,AI系統所有者可能更傾向于通過設定容易評估的目標來獲得更高的利潤,例如引導用戶點擊按鈕、吸引用戶長久在網站停留等,但這一做法是否真的對人類社會有利則有待考量。[14]
今年5月份,一封由包括多倫多大學計算機科學榮譽教授Geoffrey Hinton、蒙特利爾大學計算機科學教授Yoshua Bengio、Google DeepMind首席執(zhí)行官Demis Hassabis、OpenAl首席執(zhí)行官Sam Altman和Anthropic首席執(zhí)行官Dario Amodei等在內的350多名高管、研究人員和工程師簽署的公開信引發(fā)熱議,信中表示人工智能對人類的風險,與大規(guī)模流行性疾病和核戰(zhàn)爭相當。
AI+Science 讀書會
AGI讀書會啟動
為了深入探討 AGI 相關話題,集智俱樂部聯合集萃深度感知技術研究所所長岳玉濤、麻省理工學院博士沈馬成、天普大學博士生徐博文,共同發(fā)起 AGI 讀書會,涵蓋主題包括:智能的定義與度量、智能的原理、大語言模型與信息世界的智能、感知與具身智能、多視角下的人工智能、對齊技術與AGI安全性、AGI時代的未來社會。讀書會從2023年9月21日開始,每周四晚上 19:00-21:00,預計持續(xù)7-10周。歡迎感興趣的朋友報名參與!
詳情請見:
AGI 讀書會啟動:邁向通用人工智能的跨學科路徑
轉載請注明來自浙江中液機械設備有限公司 ,本文標題:《萬字長文詳解:大模型時代AI價值對齊的問題、對策和展望》
還沒有評論,來說兩句吧...