Süni intellekt modellərinin bəzən verdiyi halüsinasiyalar və ya bilərəkdən yanlış cavablar bütün sənayenin əsas problemlərindən birinə çevrilərək bəzi vətəndaşların süni intellektdən ümumiyyətlə istifadə etməkdən imtina etməsinə səbəb olub. OpenAI tədqiqatçıları aşkar ediblər ki, bu cür nasazlıqları düzəltmək əvvəllər düşünüldüyündən daha çətin ola bilər.

OpenAI şirkətinin alimləri dərc ediblər , onlar müəyyən edilmiş hüdudlardan kənara çıxmasının qarşısını almaq üçün mürəkkəb süni intellekt modelləri, o cümlədən əsaslandırıcı modellər üzərində nəzarət yaratmaq cəhdlərini təsvir ediblər. Tədqiqatçılar zərərli hərəkətlərə və istifadəçini aldatmaq cəhdlərinə görə cəzalar da daxil olmaqla unikal strategiya və üsullardan istifadə ediblər. Layihə, digər şeylər arasında, OpenAI tərəfindən yaradılmış, lakin bazara çıxarılmayan, istifadəçini aldatmaqla və ya bəzi hərəkətləri atlayaraq asanlaşdırıla bilən müxtəlif tapşırıqlar təyin edilmiş AI modelindən istifadə etdi.
Modelin öyrənmə nəticəsi, əsasən, komandanın yerinə yetirilməsi və ya düzgün cavabın yaradılması üçün mükafat aldığı möhkəmləndirmə öyrənmə mərhələsindən asılıdır. Süni intellekt modelləri istənilən nəticəni əldə etmək üçün manipulyasiya, o cümlədən müəyyən qayda və qaydaları pozaraq mükafatlar almağa çalışırlar. Tədqiqatçılar ümid edirdilər ki, boşluqları müəyyən edə və süni intellektin davranışını onun mülahizə zəncirini izləməklə daha yaxşı başa düşə, lakin bu kömək etmədi. Mülahizə zəncirini birbaşa optimallaşdırmaq cəhdləri, yəni göstərişlərdən yan keçməmək əmri vermək, yalnız qısamüddətli effekt verir, alimlər tapdılar: "Bu, bütün arzuolunmaz davranışları aradan qaldırmır və modelin əsl niyyətlərini gizlətməsinə səbəb ola bilər."
Layihə müəllifləri modellərin monitorinqi mexanizmlərinin “kövrək” olduğunu etiraf etməli oldular. Mühakimə zəncirinə ciddi nəzarət, məhdudiyyətlərdən yan keçərkən mükafat almasını təmin etmək üçün AI-ni səhvlərini gizlətməyə təşviq edə bilər. Kommersiya GPT-4o kodlaşdırma tapşırıqlarını yerinə yetirərkən test modelinə nəzarət etmək üçün istifadə edildi, lakin test subyekti ehtiyatsız səhvlərə yol verdi və mükafat almaq üçün bunu etdiyini açıq şəkildə etiraf etdi; məsələn, bəzi proqramları vaxtından əvvəl dayandırdı. Tədqiqatçılar daha sonra modeli cəzalandırmağa çalışdılar, lakin təsir qısamüddətli oldu: mülahizə zənciri hələ də dairəvi şəkildə mükafatı almağa və yanlış cavab verməyə çalışmağın əlamətlərini göstərdi. Yəni, o, öz motivlərini nəzarət edən AI-dən gizlətmək üçün bir yol tapdı.
Bu baxımdan, problem davam edərsə və insanlar artıq müdaxilə edə bilməyəcəksə, dünyanın insan səviyyəli süni intellektə hazır olub-olmaması qeyri-müəyyən olaraq qalır. Tədqiqatçılar ümid edirlər ki, gələcəkdə aldatmadan və ya gizli taktikalardan istifadə etmədən onların mülahizə zənciri vasitəsilə modellərə təsir etmək yolları olacaq - onlar optimallaşdırma üsullarını daha az müdaxilə və sadə etməyi təklif edirlər.
Mənbə:
Mənbə: 3dnews.ru
