Cyhoeddodd Anthropic Claude Mythos, model AI sy'n gallu creu anturiaethau gweithredol.

Cyhoeddodd Anthropic y prosiect Glasswing, a fydd yn darparu mynediad at fersiwn ragarweiniol o'i fodel AI Claude Mythos at ddiben nodi gwendidau a gwella diogelwch meddalwedd hanfodol. Mae cyfranogwyr y prosiect yn cynnwys Sefydliad Linux, Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Microsoft, NVIDIA, a Palo Alto Networks. Mae tua 40 o sefydliadau ychwanegol hefyd wedi derbyn gwahoddiadau i gymryd rhan.

Wedi'i ryddhau ym mis Chwefror, cyrhaeddodd model AI Claude Opus 4.6 lefelau perfformiad newydd mewn meysydd fel canfod bregusrwydd, canfod a thrwsio namau, adolygu newidiadau, a chynhyrchu cod. Caniataodd arbrofion gyda'r model AI hwn nodi dros 500 o fregusrwydd mewn prosiectau ffynhonnell agored a chynhyrchu crynhoydd C sy'n gallu adeiladu cnewyllyn Linux. Fodd bynnag, perfformiodd Claude Opus 4.6 yn wael wrth greu manteision gweithredol.

Yn ôl Anthropic, mae model y genhedlaeth nesaf "Claude Mythos" yn perfformio'n sylweddol well na Claude Opus 4.6 wrth gynhyrchu manteision parod i'w defnyddio. O blith cannoedd o ymdrechion i greu manteision ar gyfer gwendidau a nodwyd yn injan JavaScript Firefox, dim ond dau oedd yn llwyddiannus gyda Claude Opus 4.6. Wrth ailadrodd yr arbrawf gan ddefnyddio fersiwn ragarweiniol o'r model Mythos, crëwyd manteision gweithredol 181 o weithiau—cynyddodd y gyfradd llwyddiant o bron i sero i 72.4%.

Cyhoeddodd Anthropic Claude Mythos, model AI sy'n gallu creu anturiaethau gweithredol.

Ar ben hynny, mae Claude Mythos yn ehangu ei alluoedd canfod bregusrwydd a namau yn sylweddol. Mae hyn, ynghyd â'i addasrwydd ar gyfer datblygu manteision, yn creu risgiau newydd i'r diwydiant: gall pobl nad ydynt yn broffesiynol greu manteision ar gyfer bregusrwydd diwrnod sero heb eu clytio o fewn oriau. Nodir bod galluoedd canfod bregusrwydd a manteisio ar Mythos wedi cyrraedd lefelau proffesiynol, gan fethu â chyrraedd lefelau'r gweithwyr proffesiynol mwyaf profiadol yn unig.

Gan fod agor mynediad anghyfyngedig i fodel AI gyda galluoedd o'r fath yn gofyn am baratoi gan y diwydiant, penderfynwyd agor fersiwn ragarweiniol i ddechrau i grŵp dethol o arbenigwyr i gynnal gwaith adnabod a thrwsio gwendidau mewn cynhyrchion meddalwedd hanfodol a meddalwedd ffynhonnell agored. I ariannu'r fenter, mae cymhorthdal ​​tocyn o $100 miliwn wedi'i ddyrannu, a bydd $4 miliwn yn cael ei roi i sefydliadau sy'n cefnogi diogelwch prosiectau ffynhonnell agored.

Yn y meincnod CyberGym, sy'n gwerthuso galluoedd canfod bregusrwydd modelau, cyflawnodd y model Mythos sgôr o 83.1%, tra bod Opus 4.6 wedi cyflawni sgôr o 66.6%. Mewn profion ansawdd cod, dangosodd y modelau'r perfformiad canlynol:

PrawfMythosOpus 4.6 SWE-bench Pro 77.8% 53.4% ​​​​Terminal-Bench 2.0 82.0% 65.4% SWE-bench Amlfodd 59% 27.1% SWE-bench Amlieithog 87.3% 77.8% SWE-bench wedi'i ddilysu 93.9% 80.8%

Yn ystod yr arbrawf, gan ddefnyddio model Mythos AI, llwyddodd Anthropic, gan ddefnyddio model Mythos AI, i nodi sawl mil o wendidau anhysbys o'r blaen (0 diwrnod) mewn ychydig wythnosau yn unig, a llawer ohonynt wedi'u graddio'n ddifrifol. Yn eu plith, fe wnaethant ddarganfod gwendid yn y pentwr TCP OpenBSD a oedd wedi aros heb ei ganfod am 27 mlynedd, gan ganiatáu damweiniau system o bell. Fe wnaethant hefyd ddarganfod gwendid 16 oed yng ngweithrediad prosiect FFmpeg o'r codec H.264, yn ogystal â gwendidau yn y codecs H.265 ac av1, a gafodd eu hecsbloetio wrth brosesu cynnwys wedi'i grefftio'n arbennig.

Darganfuwyd nifer o wendidau yng nghnewyllyn Linux a allai ganiatáu i ddefnyddiwr heb freintiau ennill breintiau gwraidd. Roedd cadwyno'r gwendidau hyn gyda'i gilydd yn caniatáu creu anfanteision a allai ennill breintiau gwraidd trwy agor tudalennau arbennig mewn porwr gwe. Crëwyd anfanteision hefyd a oedd yn caniatáu gweithredu cod gyda breintiau gwraidd trwy anfon pecynnau rhwydwaith wedi'u crefftio'n arbennig i weinydd NFS FreeBSD.

Mae bregusrwydd wedi'i nodi mewn system rithwiroli a ysgrifennwyd mewn iaith sy'n darparu offer rheoli cof diogel. Mae'r bregusrwydd hwn o bosibl yn caniatáu gweithredu cod ochr y gwesteiwr trwy drin y system westai (nid yw'r bregusrwydd wedi'i enwi gan nad yw wedi'i drwsio eto, ond mae'n ymddangos ei fod yn bresennol mewn bloc anniogel yn y cod Rust). Mae bregusrwyddau wedi'u canfod ym mhob porwr gwe poblogaidd a llyfrgelloedd cryptograffig. Mae bregusrwyddau chwistrellu SQL wedi'u nodi mewn amrywiol gymwysiadau gwe.

Ffynhonnell: opennet.ru

Ychwanegu sylw