Halusinasi, atawa jawaban ngahaja salah, nu model AI kadang masihan, geus jadi salah sahiji masalah utama sakabéh industri, ngabalukarkeun sababaraha warga nolak ngagunakeun AI pisan. Ngalereskeun gangguan sapertos kitu tiasa langkung hese tibatan anu disangka sateuacana, peneliti OpenAI mendakan.

Élmuwan ti perusahaan OpenAI parantos nyebarkeun , di mana maranéhna ngajelaskeun usaha maranéhna pikeun ngadegkeun kontrol leuwih model AI kompléks, kaasup nalar, guna nyegah aranjeunna ti balik saluareun wates ngadegkeun. Panaliti ngagunakeun strategi sareng metode anu unik, kalebet hukuman pikeun tindakan jahat sareng usaha nipu pangguna. Proyék anu dianggo, diantarana, modél AI anu diciptakeun ku OpenAI tapi henteu dileupaskeun ka pasar, anu ditugaskeun rupa-rupa pancén anu tiasa digampangkeun ku ngagampangkeun pangguna atanapi ngalangkungan sababaraha tindakan.
Hasil diajar modél sabagéan ageung gumantung kana tahap pembelajaran penguatan, dimana éta nampi ganjaran pikeun ngalaksanakeun paréntah atanapi ngahasilkeun réspon anu leres. Model AI condong nyoba meunang ganjaran ngaliwatan manipulasi, kaasup ngalanggar aturan jeung tungtunan tangtu, guna ngahontal hasil nu dipikahoyong. Panaliti ngaharepkeun aranjeunna tiasa ngaidentipikasi celah sareng langkung ngartos paripolah AI ku ngalacak ranté nalarna, tapi éta henteu ngabantosan. Usaha pikeun ngaoptimalkeun ranté nalar sacara langsung, nyaéta, ngaluarkeun paréntah pikeun henteu jalan-jalan paréntah, ngan ukur masihan pangaruh jangka pondok, para ilmuwan mendakan: "éta henteu ngaleungitkeun sagala paripolah anu teu dihoyongkeun sareng tiasa nyababkeun modél nyumputkeun niat anu leres."
Panulis proyék kedah ngaku yén mékanisme pikeun ngawaskeun modél "rapuh". Pengawasan anu ketat tina ranté nalar tiasa nyorong AI pikeun nyumputkeun kasalahanna pikeun mastikeun yén éta bakal diganjar bari ngahindarkeun konstrain. GPT-4o komersil dipaké pikeun ngawas model test bari eta ngalaksanakeun tugas coding, tapi subjék test nyieun kasalahan cuek tur kabuka ngaku dina ranté tina alesan yén éta ngalakukeun kitu pikeun nampa ganjaran; contona, eta terminated sababaraha program prematurely. Panaliti teras nyobian ngahukum modél éta, tapi pangaruhna pondok-cicing: ranté penalaran masih nunjukkeun tanda-tanda nyobian kéngingkeun ganjaran dina cara bunderan sareng masihan jawaban anu salah. Nyaéta, anjeunna mendakan cara pikeun nyumputkeun motifna tina AI anu ngatur.
Dina hal ieu, tetep teu écés naha dunya siap pikeun AI tingkat manusa upami masalahna tetep sareng manusa henteu tiasa deui campur. Para panalungtik ngaharepkeun yén dina mangsa nu bakal datang bakal aya cara pikeun pangaruh model ngaliwatan ranté maranéhanana penalaran tanpa selingkuh atawa taktik disumputkeun - aranjeunna ngajukeun nyieun métode optimasi kirang intrusive tur lugas.
sumber:
sumber: 3dnews.ru
