Anthropic tshaj tawm Claude Mythos, tus qauv AI uas muaj peev xwm tsim cov kev siv ua haujlwm tau zoo.

Anthropic tshaj tawm qhov project Glasswing, uas yuav muab kev nkag mus rau qhov version ua ntej ntawm nws tus qauv Claude Mythos AI rau lub hom phiaj ntawm kev txheeb xyuas qhov tsis muaj zog thiab txhim kho kev ruaj ntseg ntawm cov software tseem ceeb. Cov neeg koom nrog hauv qhov project suav nrog Linux Foundation, Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Microsoft, NVIDIA, thiab Palo Alto Networks. Kwv yees li 40 lub koom haum ntxiv kuj tau txais cov ntawv caw tuaj koom.

Tso tawm rau lub Ob Hlis, tus qauv Claude Opus 4.6 AI tau ua tiav cov theem tshiab ntawm kev ua tau zoo hauv cov cheeb tsam xws li kev tshawb pom qhov tsis muaj zog, kev tshawb pom kab laum thiab kev kho, kev tshuaj xyuas kev hloov pauv, thiab kev tsim cov lej. Kev sim nrog tus qauv AI no tau tso cai rau kev txheeb xyuas ntau dua 500 qhov tsis muaj zog hauv cov haujlwm qhib-qhov chaw thiab tsim cov C compiler uas muaj peev xwm tsim lub Linux kernel. Txawm li cas los xij, Claude Opus 4.6 ua tsis tau zoo hauv kev tsim cov kev siv tsis zoo.

Raws li Anthropic, tus qauv "Claude Mythos" tiam tom ntej ua tau zoo dua Claude Opus 4.6 hauv kev tsim cov kev siv uas npaj txhij siv. Ntawm ntau pua qhov kev sim los tsim cov kev siv rau qhov tsis muaj zog uas tau txheeb xyuas hauv Firefox lub cav JavaScript, tsuas yog ob qho xwb uas ua tiav nrog Claude Opus 4.6. Thaum rov ua qhov kev sim siv cov qauv pib ntawm Mythos, cov kev siv ua haujlwm tau tsim 181 zaug - tus nqi ua tiav tau nce los ntawm ze li xoom mus rau 72.4%.

Anthropic tshaj tawm Claude Mythos, tus qauv AI uas muaj peev xwm tsim cov kev siv ua haujlwm tau zoo.

Ntxiv mus, Claude Mythos nthuav dav nws qhov tsis muaj zog thiab kev tshawb nrhiav kab laum. Qhov no, ua ke nrog nws qhov kev tsim nyog rau kev tsim kho exploit, tsim kev pheej hmoo tshiab rau kev lag luam: exploits rau unpatched zero-day vulnerabilities tuaj yeem tsim los ntawm cov neeg tsis yog kws tshaj lij hauv ob peb teev. Nws tau sau tseg tias Mythos qhov tsis muaj zog nrhiav thiab kev siv peev xwm tau mus txog qib kev tshaj lij, tsis txaus rau cov kws tshaj lij uas muaj kev paub dhau los.

Vim tias kev qhib kev nkag mus rau tus qauv AI nrog cov peev xwm zoo li no yuav tsum tau npaj ua lag luam, nws tau txiav txim siab qhib qhov version ua ntej rau ib pawg kws tshaj lij xaiv los ua qhov kev txheeb xyuas qhov tsis muaj zog thiab kho cov haujlwm hauv cov khoom siv software tseem ceeb thiab cov software qhib. Txhawm rau pab nyiaj rau qhov kev pib no, tau muab $ 100 lab nyiaj pab rau token, thiab $ 4 lab yuav raug pub rau cov koom haum txhawb nqa kev ruaj ntseg ntawm cov haujlwm qhib.

Hauv CyberGym benchmark, uas ntsuas cov qauv qhov tsis muaj zog nrhiav tau, tus qauv Mythos tau qhab nia ntawm 83.1%, thaum Opus 4.6 tau qhab nia ntawm 66.6%. Hauv kev xeem zoo ntawm cov lej, cov qauv tau ua pov thawj cov kev ua tau zoo hauv qab no:

Kev xeemTswvyim MythosKev Ua Haujlwm 4.6 SWE-bench Pro 77.8% 53.4% ​​​​Terminal-Bench 2.0 82.0% 65.4% SWE-bench Multimodal 59% 27.1% SWE-bench Multilingual 87.3% 77.8% SWE-bench Tau Txheeb Xyuas 93.9% 80.8%

Thaum lub sijhawm sim, Anthropic, siv Mythos AI qauv, tau txheeb xyuas ntau txhiab qhov tsis zoo uas tsis tau paub dua (0-hnub) hauv ob peb lub lis piam xwb, ntau qhov tau ntsuas qhov tseem ceeb. Ntawm lawv, lawv tau pom qhov tsis zoo hauv OpenBSD TCP stack uas tsis tau pom dua 27 xyoo, ua rau lub kaw lus nyob deb tsis ua haujlwm. Lawv kuj tau pom qhov tsis zoo uas muaj 16 xyoo hauv FFmpeg qhov project siv H.264 codec, nrog rau qhov tsis zoo hauv H.265 thiab av1 codecs, uas tau siv thaum ua cov ntsiab lus tshwj xeeb.

Muaj ntau qhov tsis zoo uas tau pom hauv Linux kernel uas yuav ua rau tus neeg siv tsis muaj cai tau txais cov cai hauv paus. Kev sib txuas cov qhov tsis zoo no ua ke tso cai rau kev siv cov kev siv tsis zoo uas tuaj yeem tau txais cov cai hauv paus los ntawm kev qhib cov nplooj ntawv tshwj xeeb hauv lub web browser. Ib qho kev siv tsis zoo kuj tau tsim uas tso cai rau kev ua tiav cov lej nrog cov cai hauv paus los ntawm kev xa cov pob ntawv network tshwj xeeb mus rau FreeBSD NFS server.

Muaj ib qho teeb meem uas tau pom nyob rau hauv ib lub tshuab virtual uas sau ua hom lus uas muab cov cuab yeej tswj kev nco ruaj ntseg. Qhov teeb meem no tej zaum yuav tso cai rau kev ua tiav cov lej sab ntawm tus tswv tsev los ntawm kev tswj hwm lub tshuab qhua (qhov teeb meem no tsis tau muab lub npe vim tias nws tseem tsis tau kho, tab sis nws zoo li muaj nyob rau hauv ib qho thaiv tsis muaj kev nyab xeeb hauv Rust code). Cov teeb meem tau pom nyob rau hauv txhua lub web browsers nrov thiab cov tsev qiv ntawv cryptographic. Cov teeb meem SQL injection tau pom nyob rau hauv ntau yam web applications.

Tau qhov twg los: opennet.ru

Ntxiv ib saib