చిత్రాలలో ఆబ్జెక్ట్ డిటెక్షన్ మరియు ఇమేజ్ సెగ్మెంటేషన్ కోసం కొన్ని నెట్వర్క్ ఆర్కిటెక్చర్ల సంక్షిప్త వివరణ నాకు వనరులకు అత్యంత అర్థమయ్యే లింక్లతో. నేను వీడియో వివరణలు మరియు ప్రాధాన్యంగా రష్యన్లో ఎంచుకోవడానికి ప్రయత్నించాను.
రెండవ భాగం న్యూరల్ నెట్వర్క్ ఆర్కిటెక్చర్ల అభివృద్ధి దిశను అర్థం చేసుకునే ప్రయత్నం. మరియు వాటి ఆధారంగా సాంకేతికతలు.
మూర్తి 1 - న్యూరల్ నెట్వర్క్ ఆర్కిటెక్చర్లను అర్థం చేసుకోవడం అంత సులభం కాదు
ఆండ్రాయిడ్ ఫోన్లో ఆబ్జెక్ట్ క్లాసిఫికేషన్ మరియు డిటెక్షన్ కోసం రెండు డెమో అప్లికేషన్లను తయారు చేయడం ద్వారా ఇదంతా ప్రారంభమైంది:
బ్యాక్ ఎండ్ డెమో, సర్వర్లో డేటా ప్రాసెస్ చేయబడినప్పుడు మరియు ఫోన్కు ప్రసారం చేయబడినప్పుడు. మూడు రకాల ఎలుగుబంట్ల చిత్ర వర్గీకరణ: గోధుమ, నలుపు మరియు టెడ్డీ.
ఫ్రంట్ ఎండ్ డెమోఫోన్లోనే డేటా ప్రాసెస్ చేయబడినప్పుడు. మూడు రకాల వస్తువులను (వస్తువును గుర్తించడం) గుర్తించడం: హాజెల్ నట్స్, అత్తి పండ్లు మరియు తేదీలు.
ఇమేజ్ వర్గీకరణ, ఇమేజ్లో ఆబ్జెక్ట్ డిటెక్షన్ మరియు టాస్క్ల మధ్య వ్యత్యాసం ఉంది చిత్రం విభజన. అందువల్ల, చిత్రాలలోని వస్తువులను ఏ న్యూరల్ నెట్వర్క్ ఆర్కిటెక్చర్లు గుర్తిస్తాయో మరియు ఏవి విభజించగలవో కనుగొనవలసిన అవసరం ఉంది. నా కోసం వనరులకు అత్యంత అర్థమయ్యే లింక్లతో ఆర్కిటెక్చర్ల యొక్క క్రింది ఉదాహరణలను నేను కనుగొన్నాను:
R-CNN ఆధారంగా నిర్మాణాల శ్రేణి (Rతో ప్రాంతాలు Cఆన్వల్యూషన్ Nయూరల్ Networks లక్షణాలు): R-CNN, ఫాస్ట్ R-CNN, వేగవంతమైన R-CNN, ముసుగు R-CNN. ఇమేజ్లోని వస్తువును గుర్తించడానికి, రీజియన్ ప్రపోజల్ నెట్వర్క్ (RPN) మెకానిజం ఉపయోగించి బౌండింగ్ బాక్స్లు కేటాయించబడతాయి. ప్రారంభంలో, RPNకి బదులుగా నెమ్మదిగా సెలెక్టివ్ సెర్చ్ మెకానిజం ఉపయోగించబడింది. అప్పుడు ఎంచుకున్న పరిమిత ప్రాంతాలు వర్గీకరణ కోసం సంప్రదాయ నాడీ నెట్వర్క్ ఇన్పుట్కు అందించబడతాయి. R-CNN ఆర్కిటెక్చర్ పరిమిత ప్రాంతాలపై స్పష్టమైన "కోసం" లూప్లను కలిగి ఉంది, అలెక్స్నెట్ అంతర్గత నెట్వర్క్ ద్వారా మొత్తం 2000 పరుగుల వరకు ఉంటుంది. స్పష్టమైన "కోసం" లూప్లు ఇమేజ్ ప్రాసెసింగ్ వేగాన్ని నెమ్మదిస్తాయి. ఆర్కిటెక్చర్ యొక్క ప్రతి కొత్త వెర్షన్తో అంతర్గత న్యూరల్ నెట్వర్క్ ద్వారా నడుస్తున్న స్పష్టమైన లూప్ల సంఖ్య తగ్గుతుంది మరియు మాస్క్ R-CNNలో ఆబ్జెక్ట్ సెగ్మెంటేషన్తో వేగాన్ని పెంచడానికి మరియు వస్తువును గుర్తించే పనిని భర్తీ చేయడానికి డజన్ల కొద్దీ ఇతర మార్పులు కూడా చేయబడ్డాయి.
YOLO (You Only LOoK Once) అనేది మొబైల్ పరికరాలలో నిజ సమయంలో వస్తువులను గుర్తించిన మొదటి న్యూరల్ నెట్వర్క్. విలక్షణమైన లక్షణం: ఒకే పరుగులో వస్తువులను వేరు చేయడం (ఒక్కసారి చూడండి). అంటే, YOLO ఆర్కిటెక్చర్లో స్పష్టమైన “కోసం” లూప్లు లేవు, అందుకే నెట్వర్క్ త్వరగా పని చేస్తుంది. ఉదాహరణకు, ఈ సారూప్యత: NumPyలో, మాత్రికలతో ఆపరేషన్లు చేస్తున్నప్పుడు, స్పష్టమైన “ఫర్” లూప్లు కూడా లేవు, ఇవి NumPyలో C ప్రోగ్రామింగ్ లాంగ్వేజ్ ద్వారా ఆర్కిటెక్చర్ యొక్క దిగువ స్థాయిలలో అమలు చేయబడతాయి. YOLO ముందే నిర్వచించిన విండోల గ్రిడ్ను ఉపయోగిస్తుంది. ఒకే వస్తువు అనేక సార్లు నిర్వచించబడకుండా నిరోధించడానికి, విండో అతివ్యాప్తి గుణకం (IoU) ఉపయోగించబడుతుంది. Iకూడలి oచాల Uనియన్). ఈ ఆర్కిటెక్చర్ విస్తృత పరిధిలో పని చేస్తుంది మరియు అధిక స్థాయిలో ఉంది దృఢత్వం: ఒక మోడల్ ఫోటోగ్రాఫ్లపై శిక్షణ పొందవచ్చు, అయితే చేతితో గీసిన పెయింటింగ్లపై ఇప్పటికీ బాగా పని చేస్తుంది.
SSD (Sగజ్జ Sహాట్ మల్టీబాక్స్ Detector) - YOLO ఆర్కిటెక్చర్ యొక్క అత్యంత విజయవంతమైన "హక్స్" ఉపయోగించబడతాయి (ఉదాహరణకు, నాన్-గరిష్ట అణచివేత) మరియు న్యూరల్ నెట్వర్క్ వేగంగా మరియు మరింత ఖచ్చితంగా పని చేయడానికి కొత్తవి జోడించబడతాయి. విలక్షణమైన లక్షణం: ఇమేజ్ పిరమిడ్లో ఇచ్చిన విండోస్ (డిఫాల్ట్ బాక్స్) గ్రిడ్ని ఉపయోగించి ఒకే రన్లో వస్తువులను వేరు చేయడం. ఇమేజ్ పిరమిడ్ కన్వల్యూషన్ టెన్సర్లలో వరుస కన్వల్యూషన్ మరియు పూలింగ్ ఆపరేషన్ల ద్వారా ఎన్కోడ్ చేయబడింది (గరిష్ట-పూలింగ్ ఆపరేషన్తో, ప్రాదేశిక పరిమాణం తగ్గుతుంది). ఈ విధంగా, పెద్ద మరియు చిన్న వస్తువులు రెండూ ఒకే నెట్వర్క్ రన్లో నిర్ణయించబడతాయి.
MobileSSD (మొబైల్NetV2+ SSD) అనేది రెండు న్యూరల్ నెట్వర్క్ ఆర్కిటెక్చర్ల కలయిక. మొదటి నెట్వర్క్ MobileNetV2 త్వరగా పని చేస్తుంది మరియు గుర్తింపు ఖచ్చితత్వాన్ని పెంచుతుంది. మొబైల్ నెట్వి2 VGG-16కి బదులుగా ఉపయోగించబడుతుంది, ఇది మొదట ఉపయోగించబడింది అసలు వ్యాసం. రెండవ SSD నెట్వర్క్ చిత్రంలోని వస్తువుల స్థానాన్ని నిర్ణయిస్తుంది.
స్క్వీజ్ నెట్ - చాలా చిన్నది కానీ ఖచ్చితమైన న్యూరల్ నెట్వర్క్. స్వయంగా, ఇది వస్తువును గుర్తించే సమస్యను పరిష్కరించదు. అయితే, ఇది వివిధ నిర్మాణాల కలయికలో ఉపయోగించవచ్చు. మరియు మొబైల్ పరికరాలలో ఉపయోగించబడుతుంది. విలక్షణమైన లక్షణం ఏమిటంటే, డేటా మొదట నాలుగు 1×1 కన్వల్యూషనల్ ఫిల్టర్లుగా కుదించబడి, ఆపై నాలుగు 1×1 మరియు నాలుగు 3×3 కన్వల్యూషనల్ ఫిల్టర్లుగా విస్తరించబడుతుంది. డేటా కంప్రెషన్-విస్తరణ యొక్క అటువంటి పునరావృతాన్ని "ఫైర్ మాడ్యూల్" అంటారు.
డీప్ల్యాబ్ (డీప్ కన్వల్యూషనల్ నెట్స్తో సెమాంటిక్ ఇమేజ్ సెగ్మెంటేషన్) - ఇమేజ్లోని వస్తువుల విభజన. ఆర్కిటెక్చర్ యొక్క విలక్షణమైన లక్షణం విస్తరించిన కన్వల్యూషన్, ఇది ప్రాదేశిక స్పష్టతను సంరక్షిస్తుంది. దీని తర్వాత గ్రాఫికల్ ప్రాబబిలిస్టిక్ మోడల్ (షరతులతో కూడిన యాదృచ్ఛిక ఫీల్డ్) ఉపయోగించి ఫలితాల పోస్ట్-ప్రాసెసింగ్ దశ ఉంటుంది, ఇది సెగ్మెంటేషన్లోని చిన్న శబ్దాన్ని తొలగించడానికి మరియు విభజించబడిన చిత్రం యొక్క నాణ్యతను మెరుగుపరచడానికి మిమ్మల్ని అనుమతిస్తుంది. "గ్రాఫికల్ ప్రాబబిలిస్టిక్ మోడల్" అనే భయంకరమైన పేరు వెనుక సంప్రదాయ గాస్సియన్ ఫిల్టర్ను దాచిపెడుతుంది, ఇది సుమారుగా ఐదు పాయింట్ల ద్వారా అంచనా వేయబడుతుంది.
పరికరాన్ని గుర్తించడానికి ప్రయత్నించారు RefineDet (ఒకే గురిలో మెరుగుపరచండిఆబ్జెక్ట్ కోసం న్యూరల్ నెట్వర్క్ ఇదిection), కానీ నాకు పెద్దగా అర్థం కాలేదు.
“శ్రద్ధ” సాంకేతికత ఎలా పనిచేస్తుందో కూడా నేను చూశాను: వీడియో1, వీడియో2, వీడియో3. చిత్రం (RoI, Rసైన్యాలు of Iఆసక్తి) అటెన్షన్ యూనిట్ అనే న్యూరల్ నెట్వర్క్ని ఉపయోగించడం. దృష్టిని పెంచే ప్రాంతాలు సరిహద్దు పెట్టెలను పోలి ఉంటాయి, కానీ వాటికి భిన్నంగా, అవి చిత్రంలో స్థిరంగా ఉండవు మరియు అస్పష్టమైన సరిహద్దులను కలిగి ఉండవచ్చు. అప్పుడు, ఎక్కువ శ్రద్ధ ఉన్న ప్రాంతాల నుండి, సంకేతాలు (లక్షణాలు) వేరుచేయబడతాయి, ఇవి ఆర్కిటెక్చర్లతో పునరావృతమయ్యే న్యూరల్ నెట్వర్క్లకు "ఫెడ్" చేయబడతాయి. LSDM, GRU లేదా వనిల్లా RNN. పునరావృత న్యూరల్ నెట్వర్క్లు ఒక క్రమంలో లక్షణాల సంబంధాన్ని విశ్లేషించగలవు. పునరావృత న్యూరల్ నెట్వర్క్లు మొదట్లో టెక్స్ట్ని ఇతర భాషల్లోకి అనువదించడానికి ఉపయోగించబడ్డాయి మరియు ఇప్పుడు అనువాదం కోసం ఉపయోగించబడ్డాయి వచనానికి చిత్రాలు и చిత్రం నుండి వచనం.
మేము ఈ నిర్మాణాలను అన్వేషిస్తున్నప్పుడు నాకు ఏమీ అర్థం కావడం లేదని గ్రహించాను. మరియు నా న్యూరల్ నెట్వర్క్కు అటెన్షన్ మెకానిజంతో సమస్యలు ఉన్నాయని కాదు. ఈ అన్ని నిర్మాణాల సృష్టి ఒక రకమైన భారీ హ్యాకథాన్ లాంటిది, ఇక్కడ రచయితలు హక్స్లో పోటీ పడతారు. హ్యాక్ అనేది క్లిష్టమైన సాఫ్ట్వేర్ సమస్యకు శీఘ్ర పరిష్కారం. అంటే, ఈ అన్ని నిర్మాణాల మధ్య కనిపించే మరియు అర్థమయ్యే తార్కిక సంబంధం లేదు. వారిని ఏకం చేసేది వారు ఒకరికొకరు అరువు తెచ్చుకునే అత్యంత విజయవంతమైన హ్యాక్ల సముదాయం మరియు అందరికీ సాధారణమైనది క్లోజ్డ్-లూప్ కన్వల్యూషన్ ఆపరేషన్ (ఎర్రర్ బ్యాక్ప్రొపగేషన్, బ్యాక్ప్రొపగేషన్). నం వ్యవస్థల ఆలోచన! ఏమి మార్చాలి మరియు ఇప్పటికే ఉన్న విజయాలను ఎలా ఆప్టిమైజ్ చేయాలి అనేది స్పష్టంగా లేదు.
హక్స్ మధ్య తార్కిక కనెక్షన్ లేకపోవడం ఫలితంగా, వాటిని గుర్తుంచుకోవడం మరియు ఆచరణలో ఉపయోగించడం చాలా కష్టం. ఇది ఛిన్నాభిన్నమైన జ్ఞానం. ఉత్తమంగా, కొన్ని ఆసక్తికరమైన మరియు ఊహించని క్షణాలు గుర్తుకు వస్తాయి, కానీ చాలా వరకు అర్థం చేసుకున్న మరియు అపారమయినవి కొన్ని రోజుల్లో మెమరీ నుండి అదృశ్యమవుతాయి. ఒక వారంలో మీరు కనీసం వాస్తు పేరు గుర్తుంచుకుంటే మంచిది. కానీ చాలా గంటలు మరియు రోజుల పని సమయం కూడా కథనాలను చదవడానికి మరియు సమీక్ష వీడియోలను చూడటానికి గడిపింది!
చాలా మంది శాస్త్రీయ వ్యాసాల రచయితలు, నా వ్యక్తిగత అభిప్రాయం ప్రకారం, ఈ విచ్ఛిన్నమైన జ్ఞానం కూడా పాఠకుడికి అర్థంకాకుండా చూసుకోవడానికి సాధ్యమైన ప్రతిదాన్ని చేస్తారు. కానీ "సన్నని గాలి నుండి" తీసుకోబడిన సూత్రాలతో పది లైన్ వాక్యాలలో పాల్గొనే పదబంధాలు ప్రత్యేక కథనం (సమస్య ప్రచురించండి లేదా నశించు).
ఈ కారణంగా, న్యూరల్ నెట్వర్క్లను ఉపయోగించి సమాచారాన్ని క్రమబద్ధీకరించాల్సిన అవసరం ఉంది మరియు తద్వారా అవగాహన మరియు జ్ఞాపకశక్తి నాణ్యతను పెంచుతుంది. అందువల్ల, కృత్రిమ న్యూరల్ నెట్వర్క్ల యొక్క వ్యక్తిగత సాంకేతికతలు మరియు నిర్మాణాల విశ్లేషణ యొక్క ప్రధాన అంశం క్రింది పని: అదంతా ఎక్కడికి వెళుతుందో తెలుసుకోండి, మరియు విడిగా ఏదైనా నిర్దిష్ట న్యూరల్ నెట్వర్క్ యొక్క పరికరం కాదు.
ఇదంతా ఎక్కడికి పోతోంది? ప్రధాన ఫలితాలు:
గత రెండేళ్లలో మెషిన్ లెర్నింగ్ స్టార్టప్ల సంఖ్య ఒక్కసారిగా పడిపోయింది. సాధ్యమైన కారణం: "న్యూరల్ నెట్వర్క్లు ఇకపై కొత్తవి కావు."
సాధారణ సమస్యను పరిష్కరించడానికి ఎవరైనా పని చేసే నాడీ నెట్వర్క్ను సృష్టించవచ్చు. దీన్ని చేయడానికి, "మోడల్ జూ" నుండి రెడీమేడ్ మోడల్ని తీసుకోండి మరియు న్యూరల్ నెట్వర్క్ యొక్క చివరి పొరకు శిక్షణ ఇవ్వండి (బదిలీ అభ్యాసం) నుండి రెడీమేడ్ డేటాపై Google డేటాసెట్ శోధన లేదా నుండి 25 వేల Kaggle డేటాసెట్లు ఉచితంగా క్లౌడ్ జూపిటర్ నోట్బుక్.
నాడీ నెట్వర్క్ల యొక్క పెద్ద తయారీదారులు సృష్టించడం ప్రారంభించారు "నమూనా జంతుప్రదర్శనశాలలు" (నమూనా జూ). వాటిని ఉపయోగించి మీరు త్వరగా వాణిజ్య అనువర్తనాన్ని సృష్టించవచ్చు: TF హబ్ TensorFlow కోసం, MMD డిటెక్షన్ PyTorch కోసం, డిటెక్రాన్ Caffe2 కోసం, చైనర్-మోడల్జూ చైనర్ కోసం మరియు другие.
న్యూరల్ నెట్వర్క్లు పని చేస్తున్నాయి నిజ సమయంలో మొబైల్ పరికరాలలో (నిజ సమయం). సెకనుకు 10 నుండి 50 ఫ్రేమ్ల వరకు.
ఫోన్లలో (TF లైట్), బ్రౌజర్లలో (TF.js) మరియు ఇన్లలో న్యూరల్ నెట్వర్క్ల ఉపయోగం ఇంటి సామాగ్రి (IoT, Iఅంతర్జాలం of Tహింగ్స్). ముఖ్యంగా హార్డ్వేర్ స్థాయిలో (న్యూరల్ యాక్సిలరేటర్లు) న్యూరల్ నెట్వర్క్లను ఇప్పటికే సపోర్ట్ చేసే ఫోన్లలో.
“ప్రతి పరికరం, దుస్తులు మరియు బహుశా ఆహారం కూడా ఉంటుంది IP-v6 చిరునామా మరియు ఒకరితో ఒకరు కమ్యూనికేట్ చేసుకోండి" - సెబాస్టియన్ త్రన్.
మెషీన్ లెర్నింగ్పై ప్రచురణల సంఖ్య పెరగడం ప్రారంభమైంది మూర్ చట్టాన్ని అధిగమించండి (ప్రతి రెండు సంవత్సరాలకు రెట్టింపు) 2015 నుండి. సహజంగానే, కథనాలను విశ్లేషించడానికి మాకు న్యూరల్ నెట్వర్క్లు అవసరం.
కింది సాంకేతికతలు జనాదరణ పొందుతున్నాయి:
పైటోర్చ్ - జనాదరణ వేగంగా పెరుగుతోంది మరియు TensorFlowని అధిగమిస్తున్నట్లు కనిపిస్తోంది.
హైపర్పారామీటర్ల స్వయంచాలక ఎంపిక ఆటోఎమ్ఎల్ - ప్రజాదరణ సజావుగా పెరుగుతోంది.
ఖచ్చితత్వంలో క్రమంగా తగ్గుదల మరియు గణన వేగం పెరుగుదల: మసక తర్కం, అల్గోరిథంలు పెంచడం, సరికాని (సుమారుగా) లెక్కలు, పరిమాణీకరణ (న్యూరల్ నెట్వర్క్ యొక్క బరువులు పూర్ణాంకాలుగా మార్చబడినప్పుడు మరియు పరిమాణీకరించబడినప్పుడు), న్యూరల్ యాక్సిలరేటర్లు.
DL యొక్క ప్రధాన విషయం ఏమిటంటే, చాలా డేటా ఉంది, కానీ దానిని సేకరించడం మరియు లేబుల్ చేయడం సులభం కాదు. కాబట్టి, మార్కప్ ఆటోమేషన్ అభివృద్ధి చెందుతోంది (స్వయంచాలక ఉల్లేఖనం) న్యూరల్ నెట్వర్క్లను ఉపయోగించే న్యూరల్ నెట్వర్క్ల కోసం.
న్యూరల్ నెట్వర్క్లతో, కంప్యూటర్ సైన్స్ అకస్మాత్తుగా మారింది ప్రయోగాత్మక శాస్త్రం మరియు లేచింది పునరుత్పత్తి సంక్షోభం.
కంప్యూటింగ్ మార్కెట్ విలువగా మారినప్పుడు IT డబ్బు మరియు న్యూరల్ నెట్వర్క్ల ప్రజాదరణ ఏకకాలంలో ఉద్భవించింది. ఆర్థిక వ్యవస్థ బంగారం మరియు కరెన్సీ ఆర్థిక వ్యవస్థ నుండి మారుతోంది బంగారం-కరెన్సీ-కంప్యూటింగ్. నా కథనాన్ని చూడండి ఆర్థిక భౌతికశాస్త్రం మరియు IT డబ్బు కనిపించడానికి కారణం.
క్రమంగా కొత్తది కనిపిస్తుంది ML/DL ప్రోగ్రామింగ్ మెథడాలజీ (మెషిన్ లెర్నింగ్ & డీప్ లెర్నింగ్), ఇది శిక్షణ పొందిన న్యూరల్ నెట్వర్క్ మోడల్ల సమితిగా ప్రోగ్రామ్ను సూచించడంపై ఆధారపడి ఉంటుంది.
మూర్తి 3 - కొత్త ప్రోగ్రామింగ్ మెథడాలజీగా ML/DL
అయితే, అది ఎప్పుడూ కనిపించలేదు "న్యూరల్ నెట్వర్క్ సిద్ధాంతం", దీనిలో మీరు క్రమపద్ధతిలో ఆలోచించవచ్చు మరియు పని చేయవచ్చు. ఇప్పుడు "సిద్ధాంతం" అని పిలవబడేది వాస్తవానికి ప్రయోగాత్మక, హ్యూరిస్టిక్ అల్గోరిథంలు.
నా మరియు ఇతర వనరులకు లింక్లు:
డేటా సైన్స్ వార్తాలేఖ. ప్రధానంగా ఇమేజ్ ప్రాసెసింగ్. దీన్ని స్వీకరించాలనుకునే ఎవరైనా ఒక ఇ-మెయిల్ (foobar167gmailcom) పంపాలి. మెటీరియల్ పేరుకుపోవడంతో నేను కథనాలు మరియు వీడియోలకు లింక్లను పంపుతాను.
ఉపయోగకరమైన సాధనాలు, ఇక్కడ ప్రతి ఒక్కరూ తమ కోసం ఆసక్తికరమైనదాన్ని కనుగొంటారు.
మేము వాటిని చాలా ఉపయోగకరంగా కనుగొన్నాము. శాస్త్రీయ కథనాల విశ్లేషణ కోసం వీడియో ఛానెల్లు డేటా సైన్స్ ద్వారా. వాటిని కనుగొనండి, సభ్యత్వాన్ని పొందండి మరియు మీ సహోద్యోగులకు మరియు నాకు కూడా లింక్లను పంపండి. ఉదాహరణలు: