నరాల నెట్వర్క్. ఇదంతా ఎక్కడికి పోతోంది?

వ్యాసం రెండు భాగాలను కలిగి ఉంటుంది:

  1. చిత్రాలలో ఆబ్జెక్ట్ డిటెక్షన్ మరియు ఇమేజ్ సెగ్మెంటేషన్ కోసం కొన్ని నెట్‌వర్క్ ఆర్కిటెక్చర్‌ల సంక్షిప్త వివరణ నాకు వనరులకు అత్యంత అర్థమయ్యే లింక్‌లతో. నేను వీడియో వివరణలు మరియు ప్రాధాన్యంగా రష్యన్‌లో ఎంచుకోవడానికి ప్రయత్నించాను.
  2. రెండవ భాగం న్యూరల్ నెట్‌వర్క్ ఆర్కిటెక్చర్‌ల అభివృద్ధి దిశను అర్థం చేసుకునే ప్రయత్నం. మరియు వాటి ఆధారంగా సాంకేతికతలు.

నరాల నెట్వర్క్. ఇదంతా ఎక్కడికి పోతోంది?

మూర్తి 1 - న్యూరల్ నెట్‌వర్క్ ఆర్కిటెక్చర్‌లను అర్థం చేసుకోవడం అంత సులభం కాదు

ఆండ్రాయిడ్ ఫోన్‌లో ఆబ్జెక్ట్ క్లాసిఫికేషన్ మరియు డిటెక్షన్ కోసం రెండు డెమో అప్లికేషన్‌లను తయారు చేయడం ద్వారా ఇదంతా ప్రారంభమైంది:

  • బ్యాక్ ఎండ్ డెమో, సర్వర్‌లో డేటా ప్రాసెస్ చేయబడినప్పుడు మరియు ఫోన్‌కు ప్రసారం చేయబడినప్పుడు. మూడు రకాల ఎలుగుబంట్ల చిత్ర వర్గీకరణ: గోధుమ, నలుపు మరియు టెడ్డీ.
  • ఫ్రంట్ ఎండ్ డెమోఫోన్‌లోనే డేటా ప్రాసెస్ చేయబడినప్పుడు. మూడు రకాల వస్తువులను (వస్తువును గుర్తించడం) గుర్తించడం: హాజెల్ నట్స్, అత్తి పండ్లు మరియు తేదీలు.

ఇమేజ్ వర్గీకరణ, ఇమేజ్‌లో ఆబ్జెక్ట్ డిటెక్షన్ మరియు టాస్క్‌ల మధ్య వ్యత్యాసం ఉంది చిత్రం విభజన. అందువల్ల, చిత్రాలలోని వస్తువులను ఏ న్యూరల్ నెట్‌వర్క్ ఆర్కిటెక్చర్‌లు గుర్తిస్తాయో మరియు ఏవి విభజించగలవో కనుగొనవలసిన అవసరం ఉంది. నా కోసం వనరులకు అత్యంత అర్థమయ్యే లింక్‌లతో ఆర్కిటెక్చర్‌ల యొక్క క్రింది ఉదాహరణలను నేను కనుగొన్నాను:

  • R-CNN ఆధారంగా నిర్మాణాల శ్రేణి (Rతో ప్రాంతాలు Cఆన్వల్యూషన్ Nయూరల్ Networks లక్షణాలు): R-CNN, ఫాస్ట్ R-CNN, వేగవంతమైన R-CNN, ముసుగు R-CNN. ఇమేజ్‌లోని వస్తువును గుర్తించడానికి, రీజియన్ ప్రపోజల్ నెట్‌వర్క్ (RPN) మెకానిజం ఉపయోగించి బౌండింగ్ బాక్స్‌లు కేటాయించబడతాయి. ప్రారంభంలో, RPNకి బదులుగా నెమ్మదిగా సెలెక్టివ్ సెర్చ్ మెకానిజం ఉపయోగించబడింది. అప్పుడు ఎంచుకున్న పరిమిత ప్రాంతాలు వర్గీకరణ కోసం సంప్రదాయ నాడీ నెట్‌వర్క్ ఇన్‌పుట్‌కు అందించబడతాయి. R-CNN ఆర్కిటెక్చర్ పరిమిత ప్రాంతాలపై స్పష్టమైన "కోసం" లూప్‌లను కలిగి ఉంది, అలెక్స్‌నెట్ అంతర్గత నెట్‌వర్క్ ద్వారా మొత్తం 2000 పరుగుల వరకు ఉంటుంది. స్పష్టమైన "కోసం" లూప్‌లు ఇమేజ్ ప్రాసెసింగ్ వేగాన్ని నెమ్మదిస్తాయి. ఆర్కిటెక్చర్ యొక్క ప్రతి కొత్త వెర్షన్‌తో అంతర్గత న్యూరల్ నెట్‌వర్క్ ద్వారా నడుస్తున్న స్పష్టమైన లూప్‌ల సంఖ్య తగ్గుతుంది మరియు మాస్క్ R-CNNలో ఆబ్జెక్ట్ సెగ్మెంటేషన్‌తో వేగాన్ని పెంచడానికి మరియు వస్తువును గుర్తించే పనిని భర్తీ చేయడానికి డజన్ల కొద్దీ ఇతర మార్పులు కూడా చేయబడ్డాయి.
  • YOLO (You Only LOoK Once) అనేది మొబైల్ పరికరాలలో నిజ సమయంలో వస్తువులను గుర్తించిన మొదటి న్యూరల్ నెట్‌వర్క్. విలక్షణమైన లక్షణం: ఒకే పరుగులో వస్తువులను వేరు చేయడం (ఒక్కసారి చూడండి). అంటే, YOLO ఆర్కిటెక్చర్‌లో స్పష్టమైన “కోసం” లూప్‌లు లేవు, అందుకే నెట్‌వర్క్ త్వరగా పని చేస్తుంది. ఉదాహరణకు, ఈ సారూప్యత: NumPyలో, మాత్రికలతో ఆపరేషన్లు చేస్తున్నప్పుడు, స్పష్టమైన “ఫర్” లూప్‌లు కూడా లేవు, ఇవి NumPyలో C ప్రోగ్రామింగ్ లాంగ్వేజ్ ద్వారా ఆర్కిటెక్చర్ యొక్క దిగువ స్థాయిలలో అమలు చేయబడతాయి. YOLO ముందే నిర్వచించిన విండోల గ్రిడ్‌ను ఉపయోగిస్తుంది. ఒకే వస్తువు అనేక సార్లు నిర్వచించబడకుండా నిరోధించడానికి, విండో అతివ్యాప్తి గుణకం (IoU) ఉపయోగించబడుతుంది. Iకూడలి oచాల Uనియన్). ఈ ఆర్కిటెక్చర్ విస్తృత పరిధిలో పని చేస్తుంది మరియు అధిక స్థాయిలో ఉంది దృఢత్వం: ఒక మోడల్ ఫోటోగ్రాఫ్‌లపై శిక్షణ పొందవచ్చు, అయితే చేతితో గీసిన పెయింటింగ్‌లపై ఇప్పటికీ బాగా పని చేస్తుంది.
  • SSD (Sగజ్జ Sహాట్ మల్టీబాక్స్ Detector) - YOLO ఆర్కిటెక్చర్ యొక్క అత్యంత విజయవంతమైన "హక్స్" ఉపయోగించబడతాయి (ఉదాహరణకు, నాన్-గరిష్ట అణచివేత) మరియు న్యూరల్ నెట్‌వర్క్ వేగంగా మరియు మరింత ఖచ్చితంగా పని చేయడానికి కొత్తవి జోడించబడతాయి. విలక్షణమైన లక్షణం: ఇమేజ్ పిరమిడ్‌లో ఇచ్చిన విండోస్ (డిఫాల్ట్ బాక్స్) గ్రిడ్‌ని ఉపయోగించి ఒకే రన్‌లో వస్తువులను వేరు చేయడం. ఇమేజ్ పిరమిడ్ కన్వల్యూషన్ టెన్సర్‌లలో వరుస కన్వల్యూషన్ మరియు పూలింగ్ ఆపరేషన్‌ల ద్వారా ఎన్‌కోడ్ చేయబడింది (గరిష్ట-పూలింగ్ ఆపరేషన్‌తో, ప్రాదేశిక పరిమాణం తగ్గుతుంది). ఈ విధంగా, పెద్ద మరియు చిన్న వస్తువులు రెండూ ఒకే నెట్‌వర్క్ రన్‌లో నిర్ణయించబడతాయి.
  • MobileSSD (మొబైల్NetV2+ SSD) అనేది రెండు న్యూరల్ నెట్‌వర్క్ ఆర్కిటెక్చర్‌ల కలయిక. మొదటి నెట్‌వర్క్ MobileNetV2 త్వరగా పని చేస్తుంది మరియు గుర్తింపు ఖచ్చితత్వాన్ని పెంచుతుంది. మొబైల్ నెట్‌వి2 VGG-16కి బదులుగా ఉపయోగించబడుతుంది, ఇది మొదట ఉపయోగించబడింది అసలు వ్యాసం. రెండవ SSD నెట్‌వర్క్ చిత్రంలోని వస్తువుల స్థానాన్ని నిర్ణయిస్తుంది.
  • స్క్వీజ్ నెట్ - చాలా చిన్నది కానీ ఖచ్చితమైన న్యూరల్ నెట్‌వర్క్. స్వయంగా, ఇది వస్తువును గుర్తించే సమస్యను పరిష్కరించదు. అయితే, ఇది వివిధ నిర్మాణాల కలయికలో ఉపయోగించవచ్చు. మరియు మొబైల్ పరికరాలలో ఉపయోగించబడుతుంది. విలక్షణమైన లక్షణం ఏమిటంటే, డేటా మొదట నాలుగు 1×1 కన్వల్యూషనల్ ఫిల్టర్‌లుగా కుదించబడి, ఆపై నాలుగు 1×1 మరియు నాలుగు 3×3 కన్వల్యూషనల్ ఫిల్టర్‌లుగా విస్తరించబడుతుంది. డేటా కంప్రెషన్-విస్తరణ యొక్క అటువంటి పునరావృతాన్ని "ఫైర్ మాడ్యూల్" అంటారు.
  • డీప్‌ల్యాబ్ (డీప్ కన్వల్యూషనల్ నెట్స్‌తో సెమాంటిక్ ఇమేజ్ సెగ్మెంటేషన్) - ఇమేజ్‌లోని వస్తువుల విభజన. ఆర్కిటెక్చర్ యొక్క విలక్షణమైన లక్షణం విస్తరించిన కన్వల్యూషన్, ఇది ప్రాదేశిక స్పష్టతను సంరక్షిస్తుంది. దీని తర్వాత గ్రాఫికల్ ప్రాబబిలిస్టిక్ మోడల్ (షరతులతో కూడిన యాదృచ్ఛిక ఫీల్డ్) ఉపయోగించి ఫలితాల పోస్ట్-ప్రాసెసింగ్ దశ ఉంటుంది, ఇది సెగ్మెంటేషన్‌లోని చిన్న శబ్దాన్ని తొలగించడానికి మరియు విభజించబడిన చిత్రం యొక్క నాణ్యతను మెరుగుపరచడానికి మిమ్మల్ని అనుమతిస్తుంది. "గ్రాఫికల్ ప్రాబబిలిస్టిక్ మోడల్" అనే భయంకరమైన పేరు వెనుక సంప్రదాయ గాస్సియన్ ఫిల్టర్‌ను దాచిపెడుతుంది, ఇది సుమారుగా ఐదు పాయింట్ల ద్వారా అంచనా వేయబడుతుంది.
  • పరికరాన్ని గుర్తించడానికి ప్రయత్నించారు RefineDet (ఒకే గురిలో మెరుగుపరచండిఆబ్జెక్ట్ కోసం న్యూరల్ నెట్‌వర్క్ ఇదిection), కానీ నాకు పెద్దగా అర్థం కాలేదు.
  • “శ్రద్ధ” సాంకేతికత ఎలా పనిచేస్తుందో కూడా నేను చూశాను: వీడియో1, వీడియో2, వీడియో3. చిత్రం (RoI, Rసైన్యాలు of Iఆసక్తి) అటెన్షన్ యూనిట్ అనే న్యూరల్ నెట్‌వర్క్‌ని ఉపయోగించడం. దృష్టిని పెంచే ప్రాంతాలు సరిహద్దు పెట్టెలను పోలి ఉంటాయి, కానీ వాటికి భిన్నంగా, అవి చిత్రంలో స్థిరంగా ఉండవు మరియు అస్పష్టమైన సరిహద్దులను కలిగి ఉండవచ్చు. అప్పుడు, ఎక్కువ శ్రద్ధ ఉన్న ప్రాంతాల నుండి, సంకేతాలు (లక్షణాలు) వేరుచేయబడతాయి, ఇవి ఆర్కిటెక్చర్‌లతో పునరావృతమయ్యే న్యూరల్ నెట్‌వర్క్‌లకు "ఫెడ్" చేయబడతాయి. LSDM, GRU లేదా వనిల్లా RNN. పునరావృత న్యూరల్ నెట్‌వర్క్‌లు ఒక క్రమంలో లక్షణాల సంబంధాన్ని విశ్లేషించగలవు. పునరావృత న్యూరల్ నెట్‌వర్క్‌లు మొదట్లో టెక్స్ట్‌ని ఇతర భాషల్లోకి అనువదించడానికి ఉపయోగించబడ్డాయి మరియు ఇప్పుడు అనువాదం కోసం ఉపయోగించబడ్డాయి వచనానికి చిత్రాలు и చిత్రం నుండి వచనం.

మేము ఈ నిర్మాణాలను అన్వేషిస్తున్నప్పుడు నాకు ఏమీ అర్థం కావడం లేదని గ్రహించాను. మరియు నా న్యూరల్ నెట్‌వర్క్‌కు అటెన్షన్ మెకానిజంతో సమస్యలు ఉన్నాయని కాదు. ఈ అన్ని నిర్మాణాల సృష్టి ఒక రకమైన భారీ హ్యాకథాన్ లాంటిది, ఇక్కడ రచయితలు హక్స్‌లో పోటీ పడతారు. హ్యాక్ అనేది క్లిష్టమైన సాఫ్ట్‌వేర్ సమస్యకు శీఘ్ర పరిష్కారం. అంటే, ఈ అన్ని నిర్మాణాల మధ్య కనిపించే మరియు అర్థమయ్యే తార్కిక సంబంధం లేదు. వారిని ఏకం చేసేది వారు ఒకరికొకరు అరువు తెచ్చుకునే అత్యంత విజయవంతమైన హ్యాక్‌ల సముదాయం మరియు అందరికీ సాధారణమైనది క్లోజ్డ్-లూప్ కన్వల్యూషన్ ఆపరేషన్ (ఎర్రర్ బ్యాక్‌ప్రొపగేషన్, బ్యాక్‌ప్రొపగేషన్). నం వ్యవస్థల ఆలోచన! ఏమి మార్చాలి మరియు ఇప్పటికే ఉన్న విజయాలను ఎలా ఆప్టిమైజ్ చేయాలి అనేది స్పష్టంగా లేదు.

హక్స్ మధ్య తార్కిక కనెక్షన్ లేకపోవడం ఫలితంగా, వాటిని గుర్తుంచుకోవడం మరియు ఆచరణలో ఉపయోగించడం చాలా కష్టం. ఇది ఛిన్నాభిన్నమైన జ్ఞానం. ఉత్తమంగా, కొన్ని ఆసక్తికరమైన మరియు ఊహించని క్షణాలు గుర్తుకు వస్తాయి, కానీ చాలా వరకు అర్థం చేసుకున్న మరియు అపారమయినవి కొన్ని రోజుల్లో మెమరీ నుండి అదృశ్యమవుతాయి. ఒక వారంలో మీరు కనీసం వాస్తు పేరు గుర్తుంచుకుంటే మంచిది. కానీ చాలా గంటలు మరియు రోజుల పని సమయం కూడా కథనాలను చదవడానికి మరియు సమీక్ష వీడియోలను చూడటానికి గడిపింది!

నరాల నెట్వర్క్. ఇదంతా ఎక్కడికి పోతోంది?

చిత్రం 2 - జూ ఆఫ్ న్యూరల్ నెట్‌వర్క్స్

చాలా మంది శాస్త్రీయ వ్యాసాల రచయితలు, నా వ్యక్తిగత అభిప్రాయం ప్రకారం, ఈ విచ్ఛిన్నమైన జ్ఞానం కూడా పాఠకుడికి అర్థంకాకుండా చూసుకోవడానికి సాధ్యమైన ప్రతిదాన్ని చేస్తారు. కానీ "సన్నని గాలి నుండి" తీసుకోబడిన సూత్రాలతో పది లైన్ వాక్యాలలో పాల్గొనే పదబంధాలు ప్రత్యేక కథనం (సమస్య ప్రచురించండి లేదా నశించు).

ఈ కారణంగా, న్యూరల్ నెట్‌వర్క్‌లను ఉపయోగించి సమాచారాన్ని క్రమబద్ధీకరించాల్సిన అవసరం ఉంది మరియు తద్వారా అవగాహన మరియు జ్ఞాపకశక్తి నాణ్యతను పెంచుతుంది. అందువల్ల, కృత్రిమ న్యూరల్ నెట్‌వర్క్‌ల యొక్క వ్యక్తిగత సాంకేతికతలు మరియు నిర్మాణాల విశ్లేషణ యొక్క ప్రధాన అంశం క్రింది పని: అదంతా ఎక్కడికి వెళుతుందో తెలుసుకోండి, మరియు విడిగా ఏదైనా నిర్దిష్ట న్యూరల్ నెట్‌వర్క్ యొక్క పరికరం కాదు.

ఇదంతా ఎక్కడికి పోతోంది? ప్రధాన ఫలితాలు:

  • గత రెండేళ్లలో మెషిన్ లెర్నింగ్ స్టార్టప్‌ల సంఖ్య ఒక్కసారిగా పడిపోయింది. సాధ్యమైన కారణం: "న్యూరల్ నెట్‌వర్క్‌లు ఇకపై కొత్తవి కావు."
  • సాధారణ సమస్యను పరిష్కరించడానికి ఎవరైనా పని చేసే నాడీ నెట్‌వర్క్‌ను సృష్టించవచ్చు. దీన్ని చేయడానికి, "మోడల్ జూ" నుండి రెడీమేడ్ మోడల్‌ని తీసుకోండి మరియు న్యూరల్ నెట్‌వర్క్ యొక్క చివరి పొరకు శిక్షణ ఇవ్వండి (బదిలీ అభ్యాసం) నుండి రెడీమేడ్ డేటాపై Google డేటాసెట్ శోధన లేదా నుండి 25 వేల Kaggle డేటాసెట్‌లు ఉచితంగా క్లౌడ్ జూపిటర్ నోట్‌బుక్.
  • నాడీ నెట్వర్క్ల యొక్క పెద్ద తయారీదారులు సృష్టించడం ప్రారంభించారు "నమూనా జంతుప్రదర్శనశాలలు" (నమూనా జూ). వాటిని ఉపయోగించి మీరు త్వరగా వాణిజ్య అనువర్తనాన్ని సృష్టించవచ్చు: TF హబ్ TensorFlow కోసం, MMD డిటెక్షన్ PyTorch కోసం, డిటెక్రాన్ Caffe2 కోసం, చైనర్-మోడల్జూ చైనర్ కోసం మరియు другие.
  • న్యూరల్ నెట్‌వర్క్‌లు పని చేస్తున్నాయి నిజ సమయంలో మొబైల్ పరికరాలలో (నిజ సమయం). సెకనుకు 10 నుండి 50 ఫ్రేమ్‌ల వరకు.
  • ఫోన్‌లలో (TF లైట్), బ్రౌజర్‌లలో (TF.js) మరియు ఇన్‌లలో న్యూరల్ నెట్‌వర్క్‌ల ఉపయోగం ఇంటి సామాగ్రి (IoT, Iఅంతర్జాలం of Tహింగ్స్). ముఖ్యంగా హార్డ్‌వేర్ స్థాయిలో (న్యూరల్ యాక్సిలరేటర్లు) న్యూరల్ నెట్‌వర్క్‌లను ఇప్పటికే సపోర్ట్ చేసే ఫోన్‌లలో.
  • “ప్రతి పరికరం, దుస్తులు మరియు బహుశా ఆహారం కూడా ఉంటుంది IP-v6 చిరునామా మరియు ఒకరితో ఒకరు కమ్యూనికేట్ చేసుకోండి" - సెబాస్టియన్ త్రన్.
  • మెషీన్ లెర్నింగ్‌పై ప్రచురణల సంఖ్య పెరగడం ప్రారంభమైంది మూర్ చట్టాన్ని అధిగమించండి (ప్రతి రెండు సంవత్సరాలకు రెట్టింపు) 2015 నుండి. సహజంగానే, కథనాలను విశ్లేషించడానికి మాకు న్యూరల్ నెట్‌వర్క్‌లు అవసరం.
  • కింది సాంకేతికతలు జనాదరణ పొందుతున్నాయి:
    • పైటోర్చ్ - జనాదరణ వేగంగా పెరుగుతోంది మరియు TensorFlowని అధిగమిస్తున్నట్లు కనిపిస్తోంది.
    • హైపర్‌పారామీటర్ల స్వయంచాలక ఎంపిక ఆటోఎమ్ఎల్ - ప్రజాదరణ సజావుగా పెరుగుతోంది.
    • ఖచ్చితత్వంలో క్రమంగా తగ్గుదల మరియు గణన వేగం పెరుగుదల: మసక తర్కం, అల్గోరిథంలు పెంచడం, సరికాని (సుమారుగా) లెక్కలు, పరిమాణీకరణ (న్యూరల్ నెట్‌వర్క్ యొక్క బరువులు పూర్ణాంకాలుగా మార్చబడినప్పుడు మరియు పరిమాణీకరించబడినప్పుడు), న్యూరల్ యాక్సిలరేటర్లు.
    • అనువాదం వచనానికి చిత్రాలు и చిత్రం నుండి వచనం.
    • సృష్టి వీడియో నుండి 3D వస్తువులు, ఇప్పుడు నిజ సమయంలో.
    • DL యొక్క ప్రధాన విషయం ఏమిటంటే, చాలా డేటా ఉంది, కానీ దానిని సేకరించడం మరియు లేబుల్ చేయడం సులభం కాదు. కాబట్టి, మార్కప్ ఆటోమేషన్ అభివృద్ధి చెందుతోంది (స్వయంచాలక ఉల్లేఖనం) న్యూరల్ నెట్‌వర్క్‌లను ఉపయోగించే న్యూరల్ నెట్‌వర్క్‌ల కోసం.
  • న్యూరల్ నెట్‌వర్క్‌లతో, కంప్యూటర్ సైన్స్ అకస్మాత్తుగా మారింది ప్రయోగాత్మక శాస్త్రం మరియు లేచింది పునరుత్పత్తి సంక్షోభం.
  • కంప్యూటింగ్ మార్కెట్ విలువగా మారినప్పుడు IT డబ్బు మరియు న్యూరల్ నెట్‌వర్క్‌ల ప్రజాదరణ ఏకకాలంలో ఉద్భవించింది. ఆర్థిక వ్యవస్థ బంగారం మరియు కరెన్సీ ఆర్థిక వ్యవస్థ నుండి మారుతోంది బంగారం-కరెన్సీ-కంప్యూటింగ్. నా కథనాన్ని చూడండి ఆర్థిక భౌతికశాస్త్రం మరియు IT డబ్బు కనిపించడానికి కారణం.

క్రమంగా కొత్తది కనిపిస్తుంది ML/DL ప్రోగ్రామింగ్ మెథడాలజీ (మెషిన్ లెర్నింగ్ & డీప్ లెర్నింగ్), ఇది శిక్షణ పొందిన న్యూరల్ నెట్‌వర్క్ మోడల్‌ల సమితిగా ప్రోగ్రామ్‌ను సూచించడంపై ఆధారపడి ఉంటుంది.

నరాల నెట్వర్క్. ఇదంతా ఎక్కడికి పోతోంది?

మూర్తి 3 - కొత్త ప్రోగ్రామింగ్ మెథడాలజీగా ML/DL

అయితే, అది ఎప్పుడూ కనిపించలేదు "న్యూరల్ నెట్‌వర్క్ సిద్ధాంతం", దీనిలో మీరు క్రమపద్ధతిలో ఆలోచించవచ్చు మరియు పని చేయవచ్చు. ఇప్పుడు "సిద్ధాంతం" అని పిలవబడేది వాస్తవానికి ప్రయోగాత్మక, హ్యూరిస్టిక్ అల్గోరిథంలు.

నా మరియు ఇతర వనరులకు లింక్‌లు:

Спасибо!

మూలం: www.habr.com

ఒక వ్యాఖ్యను జోడించండి