OpenAI:懲罰說謊的人工智慧毫無用處——它會開始更加作弊

人工智慧模型有時會產生幻覺或故意給出錯誤答案,這已經成為整個行業的主要問題之一,導致一些公民完全拒絕使用人工智慧。 OpenAI 的研究人員發現,修復這類故障可能比先前想像的更困難。

OpenAI:懲罰說謊的人工智慧毫無用處——它會開始更加作弊

OpenAI 公司的科學家發表了 研究成果,其中他們描述了他們嘗試對複雜的人工智慧模型(包括推理模型)進行控制,以防止它們超越既定的限制。研究人員使用了獨特的策略和方法,包括對惡意行為和欺騙使用者的行為進行懲罰。該專案使用了 OpenAI 創建但未投放市場的 AI 模型,該模型被分配了各種任務,可以透過欺騙使用者或跳過某些操作來變得更容易。

模型的學習結果在很大程度上取決於強化學習階段,在這個階段,模型會因執行命令或產生正確的反應而獲得獎勵。人工智慧模型傾向於嘗試透過操縱來獲得獎勵,包括打破某些規則和準則,以實現預期的結果。研究人員希望透過追蹤人工智慧的推理鏈來發現漏洞並更好地理解人工智慧的行為,但這並沒有幫助。科學家發現,直接優化推理鏈的嘗試,即發出不繞過指令的命令,只會產生短期效果:“它並不能消除所有不良行為,並可能導致模型隱藏其真實意圖。”

該計畫的作者不得不承認,監控模型的機制「很脆弱」。對推理鏈的嚴格監督可能會鼓勵人工智慧隱藏其錯誤,以確保其在規避約束的同時獲得獎勵。商用 GPT-4o 用於監控測試模型執行編碼任務,但測試對像不小心犯了錯誤,並在推理鏈中公開承認自己這樣做是為了獲得獎勵;例如,它過早終止了一些程序。研究人員隨後嘗試懲罰模型,但效果是短暫的:推理鏈仍然顯示出試圖以迂迴的方式獲取獎勵並給出錯誤答案的跡象。也就是說,她找到了一種向控制人工智慧隱藏其動機的方法。

在這方面,如果問題持續存在且人類無法再進行幹預,那麼世界是否已為人類水平的人工智慧做好準備仍不清楚。研究人員希望,未來能夠有辦法透過推理鏈來影響模型,而無需作弊或隱藏的策略——他們建議讓最佳化方法不那麼具有侵入性,而且更直接。

來源:


來源: 3dnews.ru
為具有 DDoS 保護、VPS VDS 服務器的站點購買可靠的主機 🔥 購買具備 DDoS 防護的可靠網站寄存服務,包括 VPS 和 VDS 伺服器 | ProHoster