Файл мазмұны түрін анықтау үшін Google ашық бастапқы Magika AI жүйесі

Google файлдағы деректерді талдау негізінде мазмұн түрін анықтауға арналған Magika жобасының ашық көзін жариялады. Magika мазмұндағы бағдарламалау тілдерін, қысу әдістерін, орнату пакеттерін, орындалатын кодты, белгілеу түрлерін, аудио, бейне, құжат және кескін пішімдерін дәл анықтай алады. Жобаның байланысты құралдар жинағы және дайын машиналық оқыту үлгісі Apache 2.0 лицензиясы бойынша жарияланған.

Magika MIME түрін мазмұны бойынша машиналық оқыту әдістерін, жоғары өнімділікті және тамаша анықтау дәлдігін пайдалана отырып анықтайтын ұқсас жобалардан ерекшеленеді. Модель Keras негізін пайдаланып 25 миллион үлгі файлдарында оқытылды және кем дегенде 116% дәлдікпен 99 деректер түрін тануды қолдайды. Модель ONNX пішімінде құрастырылған және өлшемі небәрі 1 МБ. Терең машиналық оқыту әдістерін пайдалану Google қолмен белгіленген ережелер негізінде бұрын қолданылған жүйемен салыстырғанда анықтау дәлдігін 50%-ға арттыруға мүмкіндік берді.

Файл мазмұны түрін анықтау үшін Google ашық бастапқы Magika AI жүйесі

Google жүйесінде жүйе қауіпсіздік тексерулерін және қызмет көрсету ережелерін сақтауды орындау кезінде Gmail, Drive, Code Insight және Safe Browsing қызметтеріндегі файлдарды жіктеу үшін пайдаланылады. Магиканы VirusTotal платформасына нақты анализаторларды іске қоспас бұрын бастапқы файлдарды сүзуге арналған сілтеме ретінде біріктіру жұмыстары жүргізілуде. Google инфрақұрылымында орнатылған Magika секундына бірнеше миллион файлды және аптасына бірнеше жүз миллиард файлды сканерлей алады. Модельді жүктегеннен кейін бір процессор өзегінде тестілеу кезінде шығысты генерациялау уақыты 5-6 мс құрайды. Анықтау уақыты файл өлшемінен дерлік тәуелсіз.

Жобаларыңызда Magika пайдалану үшін браузерде немесе Node.js негізіндегі жобаларда жұмыс істей алатын пәрмен жолы утилитасы, Python бумасы және JavaScript кітапханасы дайындалды. Пәрмен жолы интерфейсі және API пакеттік режимде операцияларды орындауды қолдайды, яғни. бір сұрауда бірнеше файлды сканерлеуге мүмкіндік береді. Каталогтың бүкіл мазмұнын рекурсивті сканерлеу режимі және қателерге төзімділікті реттеу үшін үш болжау режимі (жоғары сенімділік, орташа сенімділік және ең жақсы болжау) бар.

Файл мазмұны түрін анықтау үшін Google ашық бастапқы Magika AI жүйесі


Ақпарат көзі: opennet.ru

пікір қалдыру