Konvolučné neurónové siete (CNN), inšpirované biologickými procesmi v ľudskom zrakovom kortexe, sa dobre hodia na úlohy, ako je rozpoznávanie objektov a tvárí, ale zlepšenie ich presnosti si vyžaduje únavné a jemné ladenie. Vedci z Google AI Research preto skúmajú nové modely, ktoré škálujú CNN „štruktúrovanejším“ spôsobom. Výsledky svojej práce zverejnili v r
„Bežnou praxou škálovania modelov je ľubovoľne zväčšovať hĺbku alebo šírku CNN a používať vyššie rozlíšenie vstupného obrazu na školenie a hodnotenie,“ píšu softvérový inžinier pre zamestnancov Mingxing Tan a vedúci vedec Google AI Quoc V .Le). "Na rozdiel od tradičných prístupov, ktoré ľubovoľne škálujú parametre siete, ako je šírka, hĺbka a rozlíšenie vstupu, naša metóda jednotne škáluje každý rozmer s pevnou sadou škálovacích faktorov."
Na ďalšie zlepšenie výkonu výskumníci obhajujú použitie novej chrbticovej siete, mobilnej invertovanej konvolúcie úzkych miest (MBConv), ktorá slúži ako základ pre rodinu modelov EfficientNets.
V testoch EfficientNets preukázal vyššiu presnosť a lepšiu účinnosť ako existujúce CNN, čím sa znížila veľkosť parametrov a požiadavky na výpočtové zdroje o rád. Jeden z modelov, EfficientNet-B7, preukázal 8,4-krát menšiu veľkosť a 6,1-krát lepší výkon ako slávny CNN Gpipe a tiež dosiahol presnosť 84,4 % a 97,1 % (výsledok Top-1 a Top-5). 50) súbor ImageNet. V porovnaní s populárnym CNN ResNet-4, iný model EfficientNet, EfficientNet-B82,6, využívajúci podobné zdroje, dosiahol presnosť 76,3 % oproti 50 % pre ResNet-XNUMX.
Modely EfficientNets fungovali dobre na iných súboroch údajov, pričom dosiahli vysokú presnosť v piatich z ôsmich benchmarkov vrátane súboru údajov CIFAR-100 (presnosť 91,7 %) a
„Poskytnutím významných zlepšení v účinnosti neurónových modelov očakávame, že EfficientNets má potenciál slúžiť ako nový rámec pre budúce úlohy počítačového videnia,“ píšu Tan a Li.
Zdrojový kód a školiace skripty pre cloudové jednotky Tensor Processing Unit (TPU) od spoločnosti Google sú voľne dostupné na
Zdroj: 3dnews.ru