Pastroni të dhënat si një lojë shkëmbi, letre, gërshërësh. A është kjo një lojë me apo pa fund? Pjesa 1. Teorike

1. Të dhënat fillestare

Pastrimi i të dhënave është një nga sfidat me të cilat përballen detyrat e analizës së të dhënave. Ky material pasqyronte zhvillimet dhe zgjidhjet që lindën si rezultat i zgjidhjes së një problemi praktik të analizimit të bazës së të dhënave në formimin e vlerës kadastrale. Burimet këtu "RAPORT Nr. 01/OKS-2019 mbi rezultatet e vlerësimit kadastral shtetëror të të gjitha llojeve të pasurive të paluajtshme (me përjashtim të parcelave të tokës) në territorin e Okrug Autonome Khanty-Mansiysk - Ugra".

Është shqyrtuar dosja “Modeli krahasues total.ods” në “Shtojca B. Rezultatet e përcaktimit të KS 5. Informacioni për mënyrën e përcaktimit të vlerës kadastrale 5.1 Qasja krahasuese”.

Tabela 1. Treguesit statistikorë të grupit të të dhënave në skedarin “Modeli krahasues total.ods”
Numri total i fushave, copë. - 44
Numri i përgjithshëm i regjistrimeve, copë. - 365 490
Numri i përgjithshëm i karaktereve, copë. — 101 714 693
Numri mesatar i karaktereve në një rekord, copë. — 278,297
Devijimi standard i karaktereve në një rekord, copë. — 15,510
Numri minimal i karaktereve në një hyrje, copë. - 198
Numri maksimal i karaktereve në një hyrje, copë. - 363

2. Pjesa hyrëse. Standardet bazë

Gjatë analizimit të bazës së të dhënave të specifikuar, u formua një detyrë për të përcaktuar kërkesat për shkallën e pastrimit, pasi siç është e qartë për të gjithë, baza e specifikuar krijon pasoja juridike dhe ekonomike për përdoruesit. Gjatë punës, rezultoi se nuk kishte kërkesa specifike për shkallën e pastrimit të të dhënave të mëdha. Duke analizuar normat juridike në këtë çështje, arrita në përfundimin se të gjitha janë të formuara nga mundësitë. Kjo do të thotë, është shfaqur një detyrë e caktuar, burimet e informacionit përpilohen për detyrën, më pas formohet një grup të dhënash dhe, bazuar në grupin e të dhënave të krijuar, mjetet për zgjidhjen e problemit. Zgjidhjet që rezultojnë janë pika referimi në zgjedhjen nga alternativat. E kam paraqitur këtë në Figurën 1.

Pastroni të dhënat si një lojë shkëmbi, letre, gërshërësh. A është kjo një lojë me apo pa fund? Pjesa 1. Teorike

Meqenëse, në çështjet e përcaktimit të ndonjë standardi, preferohet të mbështetemi në teknologjitë e provuara, unë zgjodha kërkesat e përcaktuara në "Përkufizimet dhe udhëzimet për integritetin e të dhënave të MHRA GxP për industrinë", sepse e konsiderova këtë dokument si më gjithëpërfshirës për këtë çështje. Në veçanti, në këtë dokument seksioni thotë "Duhet të theksohet se kërkesat e integritetit të të dhënave zbatohen njëlloj si për të dhënat manuale (letër) dhe ato elektronike". (përkthimi: “...kërkesat për integritetin e të dhënave zbatohen në mënyrë të barabartë për të dhënat manuale (letër) dhe ato elektronike”). Ky formulim lidhet mjaft konkretisht me konceptin e “provës me shkrim”, në dispozitat e nenit 71 të K.Pr.Civile, Art. 70 CAS, Neni 75 APC, “me shkrim” Art. 84 Kodi i Procedurës Civile.

Figura 2 paraqet një diagram të formimit të qasjeve ndaj llojeve të informacionit në jurisprudencë.

Pastroni të dhënat si një lojë shkëmbi, letre, gërshërësh. A është kjo një lojë me apo pa fund? Pjesa 1. Teorike
Oriz. 2. Burimi këtu.

Figura 3 tregon mekanizmin e Figurës 1, për detyrat e “Udhëzimit” të mësipërm. Është e lehtë, duke bërë një krahasim, të shihet se qasjet e përdorura në përmbushjen e kërkesave për integritetin e informacionit në standardet moderne për sistemet e informacionit janë dukshëm të kufizuara në krahasim me konceptin ligjor të informacionit.

Pastroni të dhënat si një lojë shkëmbi, letre, gërshërësh. A është kjo një lojë me apo pa fund? Pjesa 1. Teorike
Fig. 3

Në dokumentin e specifikuar (Udhëzues), lidhja me pjesën teknike, aftësitë për përpunimin dhe ruajtjen e të dhënave, konfirmohet mirë nga një citat nga Kapitulli 18.2. Baza e të dhënave relacionale: "Kjo strukturë skedari është në thelb më e sigurt, pasi të dhënat mbahen në një format skedari të madh i cili ruan marrëdhënien midis të dhënave dhe meta të dhënave."

Në fakt, në këtë qasje - nga aftësitë teknike ekzistuese, nuk ka asgjë jonormale dhe, në vetvete, ky është një proces i natyrshëm, pasi zgjerimi i koncepteve vjen nga aktiviteti më i studiuar - hartimi i bazës së të dhënave. Por, nga ana tjetër, shfaqen norma ligjore që nuk parashikojnë zbritje në aftësitë teknike të sistemeve ekzistuese, për shembull: GDPR - Rregullorja e Përgjithshme për Mbrojtjen e të Dhënave.

Pastroni të dhënat si një lojë shkëmbi, letre, gërshërësh. A është kjo një lojë me apo pa fund? Pjesa 1. Teorike
Oriz. 4. Gyp i aftësive teknike (Burim).

Në këto aspekte, bëhet e qartë se grupi i të dhënave origjinale (Fig. 1) do të duhet, para së gjithash, të ruhet dhe së dyti, të jetë baza për nxjerrjen e informacionit shtesë prej tij. Epo, si shembull: kamerat që regjistrojnë rregullat e trafikut janë të kudogjendura, sistemet e përpunimit të informacionit largojnë shkelësit, por informacione të tjera mund t'u ofrohen edhe konsumatorëve të tjerë, për shembull, si monitorimi i marketingut të strukturës së fluksit të klientëve në një qendër tregtare. Dhe ky është një burim i vlerës shtesë kur përdoret BigDat. Është shumë e mundur që grupet e të dhënave që po mblidhen tani, diku në të ardhmen, do të kenë vlerë sipas një mekanizmi të ngjashëm me vlerën e botimeve të rralla të 1700 në kohën e tanishme. Në fund të fundit, në fakt, grupet e të dhënave të përkohshme janë unike dhe nuk ka gjasa të përsëriten në të ardhmen.

3. Pjesa hyrëse. Kriteret e vlerësimit

Gjatë procesit të përpunimit, u zhvillua klasifikimi i mëposhtëm i gabimeve.

1. Klasa e gabimit (bazuar në GOST R 8.736-2011): a) gabime sistematike; b) gabime të rastësishme; c) një gabim.

2. Me shumësi: a) mono-shtrembërim; b) shumë-shtrembërim.

3. Sipas kritikitetit të pasojave: a) kritike; b) jo kritike.

4. Sipas burimit të ndodhjes:

A) Teknik – gabime që ndodhin gjatë funksionimit të pajisjes. Një gabim mjaft i rëndësishëm për sistemet IoT, sisteme me një shkallë të konsiderueshme ndikimi në cilësinë e komunikimit, pajisjeve (hardware).

B) Gabimet e operatorit - gabime në një gamë të gjerë nga gabimet e shkrimit të operatorit gjatë futjes deri te gabimet në specifikimet teknike për dizajnimin e bazës së të dhënave.

C) Gabimet e përdoruesit - këtu janë gabimet e përdoruesit në të gjithë gamën nga "harrova të ndërroj paraqitjen" deri te gabimet e matësve për këmbë.

5. E ndarë në një klasë të veçantë:

a) "detyra e ndarësit", domethënë hapësira dhe ":" (në rastin tonë) kur u dyfishua;
b) fjalët e shkruara së bashku;
c) nuk ka karaktere hapësirë ​​pas shërbimit
d) simbole të shumta simetrike: (), "", "...".

Marrë së bashku, me sistematizimin e gabimeve të bazës së të dhënave të paraqitura në Figurën 5, formohet një sistem koordinativ mjaft efektiv për kërkimin e gabimeve dhe zhvillimin e një algoritmi të pastrimit të të dhënave për këtë shembull.

Pastroni të dhënat si një lojë shkëmbi, letre, gërshërësh. A është kjo një lojë me apo pa fund? Pjesa 1. Teorike
Oriz. 5. Gabimet tipike që korrespondojnë me njësitë strukturore të bazës së të dhënave (Burimi: Oreshkov V.I., Paklin N.B. "Konceptet kryesore të konsolidimit të të dhënave").

Saktësia, Integriteti i domenit, Lloji i të Dhënave, Konsistenca, Teprica, Plotësia, Dyfishimi, Përputhshmëria me Rregullat e Biznesit, Përcaktimi Strukturor, Anomalia e të Dhënave, Qartësia, Koha, Respektimi i rregullave të integritetit të të dhënave. (Faqja 334. Bazat e ruajtjes së të dhënave për profesionistët e TI-së / Paulraj Ponniah.—Botimi 2.)

Paraqiti formulimin në anglisht dhe përkthimin makinerik në rusisht në kllapa.

Saktësia. Vlera e ruajtur në sistem për një element të dhënash është vlera e duhur për atë shfaqje të elementit të të dhënave. Nëse keni një emër klienti dhe një adresë të ruajtur në një rekord, atëherë adresa është adresa e saktë për klientin me atë emër. Nëse e gjeni sasinë e porositur si 1000 njësi në rekordin për numrin e porosisë 12345678, atëherë kjo sasi është sasia e saktë për atë porosi.
[Saktësi. Vlera e ruajtur në sistem për një element të dhënash është vlera e saktë për atë shfaqje të elementit të të dhënave. Nëse keni një emër klienti dhe adresë të ruajtur në një rekord, atëherë adresa është adresa e saktë për klientin me atë emër. Nëse e gjeni sasinë e porositur si 1000 njësi në rekordin për numrin e porosisë 12345678, atëherë kjo sasi është sasia e saktë për atë porosi.]

Integriteti i domenit. Vlera e të dhënave të një atributi bie në rangun e vlerave të lejuara, të përcaktuara. Shembulli i zakonshëm është vlerat e lejueshme të "mashkull" dhe "femër" për elementin e të dhënave gjinore.
[Integriteti i domenit. Vlera e të dhënave të atributit bie brenda intervalit të vlerave të vlefshme, të përcaktuara. Një shembull i përgjithshëm janë vlerat e vlefshme "mashkull" dhe "femër" për një element të të dhënave gjinore.]

Lloji i të dhënave. Vlera për një atribut të dhënash ruhet në të vërtetë si lloji i të dhënave të përcaktuar për atë atribut. Kur lloji i të dhënave të fushës së emrit të dyqanit përcaktohet si "tekst", të gjitha rastet e asaj fushe përmbajnë emrin e dyqanit të treguar në format tekstual dhe jo kode numerike.
[Lloji i të dhënave. Vlera e një atributi të të dhënave ruhet në fakt si lloji i të dhënave të përcaktuar për atë atribut. Nëse lloji i të dhënave të fushës së emrit të dyqanit përcaktohet si "tekst", të gjitha rastet e kësaj fushe përmbajnë emrin e dyqanit të shfaqur në format teksti dhe jo kode numerike.]

Konsistenca. Forma dhe përmbajtja e një fushe të dhënash është e njëjtë në sistemet e shumë burimeve. Nëse kodi i produktit për produktin ABC në një sistem është 1234, atëherë kodi për këtë produkt është 1234 në çdo sistem burimor.
[Konsistenca. Forma dhe përmbajtja e fushës së të dhënave janë të njëjta në sisteme të ndryshme burimore. Nëse kodi i produktit për produktin ABC në një sistem është 1234, atëherë kodi për atë produkt është 1234 në çdo sistem burimor.]

Teprica. Të njëjtat të dhëna nuk duhet të ruhen në më shumë se një vend në një sistem. Nëse, për arsye efikasiteti, një element i të dhënave ruhet qëllimisht në më shumë se një vend në një sistem, atëherë teprica duhet të identifikohet dhe verifikohet qartë.
[Tepricë. Të njëjtat të dhëna nuk duhet të ruhen në më shumë se një vend në sistem. Nëse, për arsye efikasiteti, një element i të dhënave ruhet qëllimisht në shumë vendndodhje në një sistem, atëherë teprica duhet të përcaktohet dhe verifikohet qartë.]

Plotësia. Nuk mungojnë vlera për një atribut të caktuar në sistem. Për shembull, në një skedar klienti, duhet të ketë një vlerë të vlefshme për fushën "gjendje" për çdo klient. Në dosjen për detajet e porosisë, çdo rekord detaj për një porosi duhet të plotësohet plotësisht.
[Plotësia. Nuk ka vlera që mungojnë në sistem për këtë atribut. Për shembull, skedari i klientit duhet të ketë një vlerë të vlefshme për fushën "status" për çdo klient. Në dosjen e detajeve të porosisë, çdo regjistrim i detajuar i porosisë duhet të plotësohet plotësisht.]

Dyfishim. Dyfishimi i të dhënave në një sistem është zgjidhur plotësisht. Nëse dihet se skedari i produktit ka regjistrime të kopjuara, atëherë identifikohen të gjitha regjistrimet e kopjuara për secilin produkt dhe krijohet një referencë e kryqëzuar.
[Dublikatë. Dyfishimi i të dhënave në sistem është eliminuar plotësisht. Nëse një skedar produkti dihet se përmban hyrje të dyfishta, atëherë identifikohen të gjitha hyrjet e kopjuara për secilin produkt dhe krijohet një referencë e kryqëzuar.]

Pajtueshmëria me rregullat e biznesit. Vlerat e çdo zëri të të dhënave i përmbahen rregullave të përcaktuara të biznesit. Në një sistem ankandi, çmimi i çekiçit ose i shitjes nuk mund të jetë më i vogël se çmimi rezervë. Në një sistem kredie bankare, bilanci i kredisë duhet të jetë gjithmonë pozitiv ose zero.
[Pajtueshmëria me rregullat e biznesit. Vlerat e secilit element të të dhënave përputhen me rregullat e vendosura të biznesit. Në një sistem ankandi, çmimi i çekiçit ose i shitjes nuk mund të jetë më i vogël se çmimi rezervë. Në një sistem krediti bankar, bilanci i kredisë duhet të jetë gjithmonë pozitiv ose zero.]

Përcaktimi strukturor. Kudo që një element i të dhënave mund të strukturohet natyrshëm në komponentë individualë, artikulli duhet të përmbajë këtë strukturë të mirëpërcaktuar. Për shembull, emri i një individi ndahet natyrshëm në emër, inicial të mesëm dhe mbiemër. Vlerat për emrat e individëve duhet të ruhen si emër, inicial i mesëm dhe mbiemër. Kjo karakteristikë e cilësisë së të dhënave thjeshton zbatimin e standardeve dhe redukton vlerat që mungojnë.
[Siguria Strukturore. Kur një element i të dhënave mund të strukturohet natyrshëm në komponentë individualë, elementi duhet të përmbajë këtë strukturë të mirëpërcaktuar. Për shembull, emri i një personi ndahet natyrshëm në emër, inicial të mesëm dhe mbiemër. Vlerat për emrat individualë duhet të ruhen si emri, iniciali i mesëm dhe mbiemri. Kjo karakteristikë e cilësisë së të dhënave thjeshton zbatimin e standardeve dhe redukton vlerat që mungojnë.]

Anomali e të dhënave. Një fushë duhet të përdoret vetëm për qëllimin për të cilin është përcaktuar. Nëse fusha Adresa-3 është përcaktuar për çdo rresht të tretë të mundshëm adresash për adresa të gjata, atëherë kjo fushë duhet të përdoret vetëm për regjistrimin e rreshtit të tretë të adresës. Nuk duhet të përdoret për të futur një numër telefoni ose faksi për klientin.
[Anomalia e të dhënave. Një fushë duhet të përdoret vetëm për qëllimin për të cilin është përcaktuar. Nëse fusha Adresa-3 është përcaktuar për çdo linjë të tretë të mundshme adresash për adresa të gjata, atëherë kjo fushë do të përdoret vetëm për të regjistruar rreshtin e tretë të adresës. Nuk duhet të përdoret për të futur një numër telefoni ose faksi për një klient.]

Qartësia. Një element i të dhënave mund të zotërojë të gjitha karakteristikat e tjera të të dhënave cilësore, por nëse përdoruesit nuk e kuptojnë qartë kuptimin e tij, atëherë elementi i të dhënave nuk ka asnjë vlerë për përdoruesit. Konventat e duhura të emërtimit ndihmojnë që elementët e të dhënave të kuptohen mirë nga përdoruesit.
[Qartësia. Një element i të dhënave mund të ketë të gjitha karakteristikat e tjera të të dhënave të mira, por nëse përdoruesit nuk e kuptojnë qartë kuptimin e tij, atëherë elementi i të dhënave nuk ka asnjë vlerë për përdoruesit. Konventat e sakta të emërtimit ndihmojnë që elementët e të dhënave të kuptohen mirë nga përdoruesit.]

Në kohë. Përdoruesit përcaktojnë afatin kohor të të dhënave. Nëse përdoruesit presin që të dhënat e dimensionit të klientit të mos jenë më të vjetra se një ditë, ndryshimet në të dhënat e klientit në sistemet burimore duhet të zbatohen çdo ditë në depon e të dhënave.
[Ne nje kohe te pershtatshme. Përdoruesit përcaktojnë afatin kohor të të dhënave. Nëse përdoruesit presin që të dhënat e dimensionit të klientit të mos jenë më të vjetra se një ditë, ndryshimet në të dhënat e klientit në sistemet burimore duhet të aplikohen në depon e të dhënave në baza ditore.]

Dobishmëria. Çdo element i të dhënave në magazinë e të dhënave duhet të plotësojë disa kërkesa të grumbullimit të përdoruesve. Një element i të dhënave mund të jetë i saktë dhe me cilësi të lartë, por nëse nuk ka vlerë për përdoruesit, atëherë është krejtësisht e panevojshme që ai element i të dhënave të jetë në depon e të dhënave.
[Shërbimi. Çdo artikull i të dhënave në ruajtjen e të dhënave duhet të plotësojë disa kërkesa të grumbullimit të përdoruesit. Një element i të dhënave mund të jetë i saktë dhe me cilësi të lartë, por nëse nuk u jep vlerë përdoruesve, atëherë nuk është e nevojshme që ai element i të dhënave të jetë në depon e të dhënave.]

Respektimi i rregullave të integritetit të të dhënave. Të dhënat e ruajtura në bazat e të dhënave relacionale të sistemeve burimore duhet t'u përmbahen rregullave të integritetit të entitetit dhe integritetit referues. Çdo tabelë që lejon null si çelës primar nuk ka integritet entiteti. Integriteti referues detyron vendosjen e drejtë të marrëdhënieve prind-fëmijë. Në një marrëdhënie klient me porosi, integriteti referues siguron ekzistencën e një klienti për çdo porosi në bazën e të dhënave.
[Pajtueshmëria me rregullat e integritetit të të dhënave. Të dhënat e ruajtura në bazat e të dhënave relacionale të sistemeve burimore duhet të jenë në përputhje me rregullat e integritetit të entitetit dhe integritetit referencial. Çdo tabelë që lejon null si një çelës primar nuk ka integritet entiteti. Integriteti i referencës detyron që marrëdhëniet midis prindërve dhe fëmijëve të vendosen drejt. Në një marrëdhënie klient-porosi, integriteti referues siguron që një klient ekziston për çdo porosi në bazën e të dhënave.]

4. Cilësia e pastrimit të të dhënave

Cilësia e pastrimit të të dhënave është një çështje mjaft problematike në bigdata. Përgjigja në pyetjen se cila shkallë e pastrimit të të dhënave është e nevojshme për të përfunduar detyrën është thelbësore për çdo analist të të dhënave. Në shumicën e problemeve aktuale, çdo analist e përcakton vetë këtë dhe nuk ka gjasa që dikush nga jashtë të jetë në gjendje ta vlerësojë këtë aspekt në zgjidhjen e tij. Por për detyrën në këtë rast, kjo çështje ishte jashtëzakonisht e rëndësishme, pasi besueshmëria e të dhënave ligjore duhet të priret në një.

Duke marrë parasysh teknologjitë e testimit të softuerit për të përcaktuar besueshmërinë operacionale. Sot ka më shumë se këto modele 200. Shumë prej modeleve përdorin një model të shërbimit të kërkesave:

Pastroni të dhënat si një lojë shkëmbi, letre, gërshërësh. A është kjo një lojë me apo pa fund? Pjesa 1. Teorike
Fig. 6

Duke menduar si më poshtë: "Nëse gabimi i gjetur është një ngjarje e ngjashme me ngjarjen e dështimit në këtë model, atëherë si të gjejmë një analog të parametrit t?" Dhe unë përpilova modelin e mëposhtëm: Le të imagjinojmë se koha që i duhet një testuesi për të kontrolluar një rekord është 1 minutë (për bazën e të dhënave në fjalë), pastaj për të gjetur të gjitha gabimet do t'i duhen 365 minuta, që është afërsisht 494 vjet e 3 muaj kohë pune. Siç e kuptojmë, kjo është një punë shumë e madhe dhe kostot e kontrollit të bazës së të dhënave do të jenë penguese për përpiluesin e kësaj baze të dhënash. Në këtë reflektim shfaqet koncepti ekonomik i kostove dhe pas analizave arrita në përfundimin se ky është një mjet mjaft efektiv. Bazuar në ligjin e ekonomisë: “Vëllimi i prodhimit (në njësi) në të cilin arrihet fitimi maksimal i një firme ndodhet në pikën ku kostoja marxhinale e prodhimit të një njësie të re të prodhimit krahasohet me çmimin që mund të marrë kjo firmë. për një njësi të re.” Bazuar në postulatin se gjetja e çdo gabimi të mëpasshëm kërkon gjithnjë e më shumë kontrolle të të dhënave, ky është një faktor kostoje. Kjo do të thotë, postulati i miratuar në modelet e testimit merr një kuptim fizik në modelin e mëposhtëm: nëse për të gjetur gabimin i-të ishte e nevojshme të kontrolloheshin n regjistrime, atëherë për të gjetur gabimin tjetër (i+3) do të jetë e nevojshme. për të kontrolluar m regjistrimet dhe në të njëjtën kohë n

  1. Kur numri i regjistrimeve të kontrolluara përpara se të gjendet një gabim i ri stabilizohet;
  2. Kur numri i regjistrimeve të kontrolluara para gjetjes së gabimit të radhës do të rritet.

Për të përcaktuar vlerën kritike, iu drejtova konceptit të fizibilitetit ekonomik, i cili në këtë rast, duke përdorur konceptin e kostove sociale, mund të formulohet si më poshtë: “Shpenzimet e korrigjimit të gabimit duhet të përballohen nga agjenti ekonomik që mund të bëjë me koston më të ulët.” Ne kemi një agjent - një testues që kalon 1 minutë duke kontrolluar një rekord. Në terma monetarë, nëse fitoni 6000 rubla në ditë, kjo do të jetë 12,2 rubla. (afërsisht sot). Mbetet për të përcaktuar anën e dytë të ekuilibrit në të drejtën ekonomike. Unë arsyetova kështu. Një gabim ekzistues do të kërkojë që personi në fjalë të bëjë përpjekje për ta korrigjuar atë, domethënë pronari i pronës. Le të themi se kjo kërkon 1 ditë veprim (paraqisni një aplikim, merrni një dokument të korrigjuar). Më pas, nga pikëpamja sociale, shpenzimet e tij do të jenë të barabarta me pagën mesatare në ditë. Paga mesatare e përllogaritur në Okrug Autonome Khanty-Mansi "Rezultatet e zhvillimit socio-ekonomik të Okrug Autonome Khanty-Mansiysk - Ugra për janar-shtator 2019" 73285 fshij. ose 3053,542 rubla/ditë. Prandaj, marrim një vlerë kritike të barabartë me:
3053,542: 12,2 = 250,4 njësi rekorde.

Kjo do të thotë, nga pikëpamja sociale, nëse një testues ka kontrolluar 251 regjistrime dhe ka gjetur një gabim, është e barabartë me atë që përdoruesi ta rregullojë vetë këtë gabim. Prandaj, nëse testuesi shpenzoi kohë të barabartë me kontrollin e 252 regjistrimeve për të gjetur gabimin tjetër, atëherë në këtë rast është më mirë të zhvendosni koston e korrigjimit tek përdoruesi.

Këtu është paraqitur një qasje e thjeshtuar, pasi nga pikëpamja sociale është e nevojshme të merret parasysh e gjithë vlera shtesë e gjeneruar nga secili specialist, domethënë kostot, përfshirë taksat dhe pagesat sociale, por modeli është i qartë. Pasojë e kësaj marrëdhënieje është kërkesa e mëposhtme për specialistët: një specialist nga industria e IT duhet të ketë një pagë më të madhe se mesatarja kombëtare. Nëse paga e tij është më e vogël se paga mesatare e përdoruesve të mundshëm të bazës së të dhënave, atëherë ai vetë duhet të kontrollojë të gjithë bazën e të dhënave dorë më dorë.

Kur përdorni kriterin e përshkruar, krijohet kërkesa e parë për cilësinë e bazës së të dhënave:
I(tr). Pjesa e gabimeve kritike nuk duhet të kalojë 1/250,4 = 0,39938%. Pak më pak se rafinimi ari në industri. Dhe në aspektin fizik nuk ka më shumë se 1459 regjistrime me gabime.

Tërheqje ekonomike.

Në fakt, duke bërë një numër të tillë gabimesh në regjistrime, shoqëria pajtohet me humbje ekonomike në masën:

1459*3053,542 = 4 rubla.

Kjo shumë përcaktohet nga fakti se shoqëria nuk ka mjetet për të ulur këto kosto. Nga kjo rrjedh se nëse dikush ka një teknologji që i lejon ata të zvogëlojnë numrin e regjistrimeve me gabime në, për shembull, 259, atëherë kjo do t'i lejojë shoqërisë të kursejë:
1200*3053,542 = 3 rubla.

Por në të njëjtën kohë, ai mund të kërkojë talentin dhe punën e tij, mirë, le të themi - 1 milion rubla.
Kjo do të thotë, kostot sociale reduktohen nga:

3 664 250 - 1 000 000 = 2 664 250 rubla.

Në thelb, ky efekt është vlera e shtuar nga përdorimi i teknologjive BigDat.

Por këtu duhet marrë parasysh se ky është një efekt social, dhe pronari i bazës së të dhënave janë autoritetet komunale, të ardhurat e tyre nga përdorimi i pronës së regjistruar në këtë bazë të dhënash, në masën 0,3%, janë: 2,778 miliardë rubla/ vit. Dhe këto kosto (4 rubla) nuk e shqetësojnë shumë, pasi ato u transferohen pronarëve të pronave. Dhe, në këtë aspekt, zhvilluesi i teknologjive më të rafinuara në Bigdata do të duhet të tregojë aftësinë për të bindur pronarin e kësaj baze të dhënash dhe gjëra të tilla kërkojnë talent të konsiderueshëm.

Në këtë shembull, algoritmi i vlerësimit të gabimit u zgjodh bazuar në modelin Schumann [2] të verifikimit të softuerit gjatë testimit të besueshmërisë. Për shkak të përhapjes së tij në internet dhe aftësisë për të marrë treguesit e nevojshëm statistikorë. Metodologjia është marrë nga Monakhov Yu.M. "Stabiliteti funksional i sistemeve të informacionit", shih nën spoilerin në Fig. 7-9.

Oriz. 7 – 9 Metodologjia e modelit SchumannPastroni të dhënat si një lojë shkëmbi, letre, gërshërësh. A është kjo një lojë me apo pa fund? Pjesa 1. Teorike

Pastroni të dhënat si një lojë shkëmbi, letre, gërshërësh. A është kjo një lojë me apo pa fund? Pjesa 1. Teorike

Pastroni të dhënat si një lojë shkëmbi, letre, gërshërësh. A është kjo një lojë me apo pa fund? Pjesa 1. Teorike

Pjesa e dytë e këtij materiali paraqet një shembull të pastrimit të të dhënave, në të cilin merren rezultatet e përdorimit të modelit Schumann.
Më lejoni të paraqes rezultatet e marra:
Numri i vlerësuar i gabimeve N = 3167 n.
Parametri C, lambda dhe funksioni i besueshmërisë:

Pastroni të dhënat si një lojë shkëmbi, letre, gërshërësh. A është kjo një lojë me apo pa fund? Pjesa 1. Teorike
Fig. 17

Në thelb, lambda është një tregues aktual i intensitetit me të cilin zbulohen gabimet në çdo fazë. Nëse shikoni pjesën e dytë, vlerësimi për këtë tregues ishte 42,4 gabime në orë, gjë që është mjaft e krahasueshme me treguesin Schumann. Më sipër, u përcaktua që shkalla me të cilën zhvilluesit gjejnë gabime duhet të jetë jo më e ulët se 1 gabim për 250,4 regjistrime, kur kontrolloni 1 rekord në minutë. Prandaj vlera kritike e lambda për modelin Schumann:

60 / 250,4 = 0,239617.

Kjo do të thotë, nevoja për të kryer procedurat e zbulimit të gabimeve duhet të kryhet derisa lambda, nga 38,964 ekzistuese, të ulet në 0,239617.

Ose derisa treguesi N (numri i mundshëm i gabimeve) minus n (numri i korrigjuar i gabimeve) të ulet nën pragun tonë të pranuar - 1459 copë.

Letërsi

  1. Monakhov, Yu. M. Stabiliteti funksional i sistemeve të informacionit. Në 3 orë Pjesa 1. Besueshmëria e softuerit: tekst shkollor. shtesa / Yu. M. Monakhov; Vladimi. shteti univ. – Vladimir: Izvo Vladim. shteti Universiteti, 2011. – 60 f. – ISBN 978-5-9984-0189-3.
  2. Martin L. Shooman, "Modele probabiliste për parashikimin e besueshmërisë së softuerit."
  3. Bazat e ruajtjes së të dhënave për profesionistët e IT-së / Paulraj Ponniah.—2nd ed.

Pjesa e dyte. Teorike

Burimi: www.habr.com

Shto një koment