Fordítói előszó
Az anyag érdekelt, elsősorban az alábbi táblázat miatt:

Figyelembe véve azt a tényt, hogy a statisztikák (és az oroszok genetikai szinten), enyhén szólva, nem szeretik mindazt, ami eltér a lineáris kapcsolattól, ezeknek a srácoknak sikerült az aktiválási függvény használatát parabolikus formában tolniuk, hogy meghatározzák a BigData használatának kockázatát a hivatalos statisztikákban. Szép munka. A statisztikusok természetesen hozzáfűzték ehhez a munkához megjegyzésüket: „1 Az esetleges hibákért vagy kihagyásokért kizárólag a szerzők felelősek. Az ebben a dokumentumban kifejtett nézetek személyesek, és nem feltétlenül tükrözik az Európai Bizottság hivatalos álláspontját.” De a mű megjelent. Azt hiszem, ez mára bőven elég, és ők (a szerzők) senkinek sem tiltották meg, hogy ezekben a szempontokban megtalálja a saját mérlegét.
A munka meglehetősen strukturált annak elkülönítésére, hogy a statisztikai módszerek hol és miben különböznek a BigData kutatási módszereitől. Véleményem szerint ennek a munkának a legnagyobb haszna az lesz, ha beszélünk az ügyféllel, és cáfoljuk az alábbi kijelentéseit:
- És mi magunk gyűjtjük a statisztikákat, mit akarsz még itt tanulni?
- Az eredményeit pedig bemutatja nekünk, hogy össze tudjuk hangolni a statisztikáinkkal. Ebben a számban a szerzők azt mondják, jó lenne elolvasni ezt a művet (3 )
Ebben a cikkben a szerzők megfogalmazták elképzeléseiket a kockázat szintjéről. Ez a paraméter zárójelben van, nem tévesztendő össze a forrásokra való hivatkozással.
Második megfigyelés. A szerzők a BDS kifejezést használják, amely a BigData koncepció analógja. (nyilván biccentés a hivatalos statisztikák felé).
Szerzők Előszó
Egyre több statisztikai hivatal vizsgálja a nagy adatforrások felhasználásának lehetőségét a hivatalos statisztikák előállításához. Jelenleg csak néhány példa van arra, hogy ezeket a forrásokat teljes mértékben integrálták a tényleges statisztikai termelésbe. Ebből következően az integrációjuk okozta következmények teljes mértéke még nem ismert. Időközben megtörténtek az első kísérletek a big data viszonyainak és hatásának elemzésére a statisztikai termelés különböző aspektusaira, mint például a minőségre vagy a módszertanra. Egy munkacsoport a közelmúltban minőségi keretet dolgozott ki a big data statisztikák előállítására az ENSZ Európai Gazdasági Bizottsága (UNECE) big data projektje keretében. Az Európai Statisztikai Gyakorlati Kódex szerint a statisztikai hivatalok fő feladata a jó minőségű statisztikai információszolgáltatás. Mivel a kockázatot a bizonytalanságnak a célokra gyakorolt hatásaként határozzuk meg (pl. ISO 31000), hasznosnak találtuk a kockázatokat az általuk érintett minőségi dimenziók szerint kategorizálni.
A nagy adatforrásokból származó statisztikai adatok javasolt minőségi keretrendszere strukturált képet ad a statisztikai üzleti folyamat minden szakaszához kapcsolódó minőségről, és így alapul szolgálhat az új adatforrásokhoz kapcsolódó kockázatok átfogó értékeléséhez és kezeléséhez. . Új minőségi dimenziókat vezet be, amelyek a big data hivatalos statisztikákhoz való felhasználására jellemzőek vagy (akkor különösen fontosak), mint például az intézményi/üzleti környezet vagy az összetettség. Ezekkel az új minőségi intézkedésekkel szisztematikusabban azonosíthatók a nagy adatforrások hivatalos statisztikákban való felhasználásával kapcsolatos kockázatok.
Jelen írásunkban arra törekszünk, hogy azonosítsuk azokat a kockázatokat, amelyeket a big data felhasználása jelent a hivatalos statisztikákkal összefüggésben. Szisztematikus megközelítést alkalmazunk a kockázatok azonosítására a javasolt minőségi keretrendszer összefüggésében. Az újonnan javasolt minőségi intézkedésekre fókuszálva olyan kockázatokat írhatunk le, amelyek jelenleg nem léteznek, vagy nem befolyásolják a hivatalos statisztikák készítését. Ugyanakkor azonosítani tudjuk azokat a jelenlegi kockázatokat, amelyeket egészen másképp értékelünk majd, ha big data-t használunk statisztikák készítésére. Ezután továbblépünk a kockázatkezelési ciklusba, és felmérjük e kockázatok valószínűségét és hatását. Mivel a kockázatértékelés szubjektivitással jár a valószínűség és a különböző kockázatokra gyakorolt hatás hozzárendelésében, több tucat különböző érdekelt fél közötti egyetértést mérjük egymástól függetlenül. Ezután négy fő kategória szerint kínálunk lehetőségeket ezeknek a kockázatoknak a csökkentésére: elkerülés, csökkentés, megosztás és megőrzés. Az ISO szerint a kockázatkezelés egyik alapelve az értékteremtés kell, hogy legyen, vagyis a kockázatcsökkentésre fordított források alacsonyabbak legyenek, mint a tétlenségre. Ennek az elvnek megfelelően végül értékelni fogjuk egyes kockázatcsökkentő intézkedéseknek a végeredmény minőségére gyakorolt lehetséges hatását annak érdekében, hogy átfogóbb értékelést kapjunk a Big Data hivatalos statisztikákban való felhasználásáról.
1. Bevezetés
1.1. Háttér
A „big data” fejlődését Kenneth Neil Cookier és Victor Mayer-Schoenberger jellemezte „The Rise of Big Data” (2. ) az „adattovábbítás” kifejezéssel. Az adatkezelést úgy írják le, mint „az élet minden aspektusát átveszi és adatokká alakítja”. Például. A Facebook személyes hálózatokat, érzékelőket biztosít mindenféle környezeti körülményhez, okostelefonokat a személyes kommunikációhoz és mozgáshoz, viselhető adatokat a személyes feltételekhez. Ez szinte mindenütt kiterjedt adatgyűjtést és elérhetőséget eredményez.
Sok más ágazathoz hasonlóan a hivatalos statisztikák is csak nemrég kezdték stratégiai szinten tárgyalni a big data kérdését. A statisztikai termelés és szolgáltatások modernizálásával foglalkozó magas szintű munkacsoporton belül még nincs általános és széles körben elterjedt felfogás a továbblépésről, legyen az kihívás vagy lehetőség, kicsi vagy nagy stb. (3 Mekkora a Big Data? A Big Data szerepének feltárása a hivatalos statisztikákban: ), a Elvégezték az első SWOT-elemzést, amelyet egy durva kockázat/haszon elemzés követett. Megjegyezték, hogy "a teljes kockázatelemzés olyan szempontokat is tartalmazni fog, mint a valószínűség és a hatás, és kibővíthető a kockázatcsökkentési és -kezelési stratégiák meghatározásával."
Bár ez a dokumentum korántsem egy teljes kockázatelemzés, pontosan az első strukturált áttekintés elkészítésével kívánja javítani a helyzetet. Szeretnénk hangsúlyozni, hogy ezt a felülvizsgálatot a Hivatalos Statisztikai Közösségen (OSC) belüli általános vita ösztönzésének kiindulópontjának kell tekinteni.
1.2. Gömb
Ez a cikk kizárólag a kockázatokra összpontosít, nem csak az előnyöket, hanem az erősségeket, gyengeségeket, lehetőségeket és veszélyeket is kizárva. Ez azt jelenti, hogy az „inaktivitás kockázatai” (például annak a kockázata, hogy az OSC kiesik a versenyből a többi résztvevővel, ha nem korszerűsítik) nem tartoznak bele a hatályba; ez inkább fenyegetés. Ehelyett igyekszünk rávilágítani azokra a kockázatokra, amelyek felmerülhetnek (a) ha az OSC kihasználja a big data adta lehetőségeket, és egy konkrét „big data hivatalos statisztikai termék” (BOSP) fejlesztésébe vagy javításába kezd; b) az új „üzleti szokásokat” érintő kockázatok, azaz a „big data” termelésen alapuló hivatalos statisztikák kockázatai. (Mivel a hivatalos statisztika minden készítése kockázatokkal jár, ezért (b) „nagy adat” specifikus kockázatokra szorítkozunk, vagyis olyan kockázatokra, amelyek nem léteznek, vagy elhanyagolhatóak a hivatalos statisztika „hagyományos” gyűjtése során.)
1.3. Szerkezet
A 2. részben bemutatjuk a feladathoz kapcsolódó főbb elveket, kezdve a kockázatkezelés és kockázatkezelés kifejezetten szükséges kereteivel (2.1. pont). Bemutatunk egy előzetes minőségi keretrendszert is a big data statisztikákhoz (2.2. szakasz), mivel a minőségi keretrendszer és a kockázat összekapcsolása két célt szolgál:
- Meghatározza a kontextust a kockázatok azonosításához. Egyes minőségi mutatók a vizsgált jellemzőkkel együtt kifejezik az objektum azon értékeit, amelyeket fontosnak és meghatározónak tartanak a vevők és a felhasználók szolgáltatásnyújtása szempontjából.
- Ez lehetővé teszi konkrét kockázatok hozzárendelését a megosztott hiperterekbe ágyazott és a statisztikai termékek előállítási folyamatának meghatározott lépéseihez kötődő kvalitatív mérésekhez.
A 3., 4., 5. és 6. részben bemutatjuk az eddig azonosított kockázatokat különböző kontextusban (4 Az ESS üzleti esetdokumentumai (https://www.europeansocialsurvey.org/about/structure_and_governance.html) ./ Az ESS Big Data projekt üzleti esetdokumentumai, valamint az ESS Big Data hálózataiban is felsorolják a projekthez részben kapcsolódó statisztikai forráscélokhoz kapcsolódó kockázatokat és kockázatokat. Work for Big Data Quality dokumentum említi a minőségi intézkedésekkel kapcsolatos kockázatokat.). Itt használjuk az adathozzáférési besorolást, a jogi környezetet, az adatvédelmet és -biztonságot, valamint a készségeket; A big data-ból származó statisztikák minőségi struktúrája (2.2. szakasz) szerinti átszervezést meg kell fontolni, amint ez a struktúra teljesebbé válik. Mindegyik azonosított kockázatra vonatkozóan (i) értékelést adunk a valószínűségről és a hatásról (a 2.1.3. szakasz szerint), és (ii) kockázatcsökkentési és kockázatkezelési stratégiákat javasolunk (lásd a 2.1.4. szakaszt).
Végül megvitatjuk megállapításainkat, és felvázolunk néhány következő lépést a 7. részben.
2. Alapok
2.1. Kockázatok és kockázatkezelés
Az ISO 31000: 20095 szerint a kockázatot "a bizonytalanság célokra gyakorolt hatásaként" definiálják. Ez azt jelenti, hogy a célokat meg kell határozni vagy ismerni kell a kockázatok azonosítása előtt. Ezeket a célokat általában az adott szervezet intézményi környezetének figyelembevételével határozzák meg. További fontos szempont, hogy a kockázatok a bizonytalanság jellemzőjét hordozzák, vagyis nem egyértelmű, hogy a leírt esemény bekövetkezik-e. Így a kockázatokat egy esemény bekövetkezésének valószínűsége és annak következményei alapján mérik, vagyis azt, hogy az esemény milyen hatással van a célok elérésére. A kockázatértékelésnek objektívebb információt kell nyújtania, amely végső soron lehetővé teszi a megfelelő egyensúly megteremtését a profitlehetőségek megvalósítása és a káros hatások minimalizálása között. A kockázatkezelés a vezetési gyakorlat szerves része, és a helyes vállalati gyakorlat fontos eleme (6 Statistics Canada: 2014-2015 report on Plans and Priority, ). Ez egy iteratív folyamat, amely ideális esetben lehetővé teszi a döntéshozatal folyamatos fejlesztését és a teljesítmény folyamatos javítását.
A kockázatok a minőséggel is járnak. A minőségbiztosítási rendszer alkalmazása lehetővé kell, hogy tegye a különböző források és módszerek adta lehetőségek kihasználását egy bizonyos minőségi szintű eredmény elérésére abban az értelemben, hogy ez az eredmény kielégítse a felhasználók igényeit. A kockázatokhoz hasonlóan a minőségi szintek az egyes intézmények intézményi környezetéből és céljaiból származtathatók. Ebben az összefüggésben az intézményi környezet határozza meg a kockázat általános szintjét, amelyet a szervezet hajlandó vállalni céljai elérése érdekében.
A kockázatértékelési és -kezelési folyamat különböző lépésekre bontható, amelyek magukban foglalják a kontextus felállítását, a kockázatok azonosítását, a kockázatok valószínűségi és hatás szerinti elemzését, a kockázatok felmérését, végül a kockázatkezelést.
2.1.1. Intézményi kontextus
Első lépésként meg kell teremteni azt a stratégiai, szervezeti és kockázatkezelési kontextust, amelyben a folyamat többi része lezajlik. Ez magában foglalja azoknak a kritériumoknak a meghatározását, amelyek alapján a kockázatokat értékelik, és meghatározza az elemzés szerkezetét.
2.1.2. Kockázat azonosítás
A második szakaszban azokat az eseményeket kell azonosítani, amelyek hatással lehetnek a célok elérésére. Az azonosításnak tartalmaznia kell a kockázatok típusával, az esemény időzítésével, helyszínével vagy azzal kapcsolatos kérdéseket, hogy az események hogyan akadályozhatják meg, ronthatják, késlelthetik vagy javíthatják a célok elérését.
2.1.3. Kockázatértékelés
A következő lépés a meglévő ellenőrzések azonosítása, valamint a kockázatok valószínűsége, valamint a lehetséges következmények elemzése. E cikk összefüggésében a kockázat bekövetkezésének valószínűsége vagy valószínűsége egy 1-től (nem valószínű) 5-ig (gyakori) terjedő skála. Az események bekövetkezésének hatását 1-től (elhanyagolható) 5-ig (extrém) terjedő skálán mérik. Amint az 1. táblázatban látható, a valószínűség és a hatás szorzata 1 és 25 közötti „kockázati szintet” eredményez.

Az értékelt kockázati szintek összehasonlíthatók előre meghatározott kritériumokkal, hogy egyensúlyt teremtsenek a lehetséges előnyök és a káros következmények között. Ez lehetővé teszi a vezetői prioritások megítélését.

A cselekvési prioritást a kritikus kockázatokra kell helyezni (lásd a 2. táblázatot), vagyis azokat, amelyek valószínűleg előfordulnak, és súlyos vagy extrém következményekkel járnak a szervezet céljaira nézve.
2.1.4. Kockázati válasz
Az utolsó lépés a kockázatokra való reagálásról szóló döntésekből áll. Egyes kockázatok, amelyek egy előre meghatározott kockázati szint alatt vannak, figyelmen kívül hagyhatók vagy elviselhetők. Mások számára a kockázatok kezelésének költségei olyan magasak lehetnek, hogy meghaladják a lehetséges előnyöket. Ebben az esetben a szervezet dönthet úgy, hogy felhagy az adott tevékenységgel. A kockázatokat harmadik félre is át lehet ruházni, például a biztosítást, amely ellensúlyozza a felmerülő költségeket. Az utolsó lehetőség a kockázatok figyelembe vétele olyan stratégiák és intézkedések meghatározásakor, amelyek egyensúlyt teremtenek a költségek és a lehetséges előnyök között. Így a szervezet a hasznok maximalizálása és a lehetséges költségek minimalizálása érdekében stratégiák végrehajtása mellett dönt.

2.2. Minőségi rendszerek
A nemzeti és nemzetközi statisztikai szervezetek képviselőiből álló munkacsoport 2014-ben kidolgozta a big data statisztikák előzetes minőségi keretrendszerét. A munkacsoport az UNECE/HLG „The Role of Big Data in the Modernization of Statistical Production” című projektjének égisze alatt dolgozott. Kibővítette az adminisztratív adatforrásokból származó statisztikák értékelésére kifejlesztett meglévő minőségbiztosítási rendszereket olyan minőségi mérőszámokkal, amelyeket a nagy adatforrások esetében relevánsnak tartottak.
Ezen a rendszeren belül az üzleti folyamat három fázisát különböztetjük meg: bemenet, teljesítmény és kimenet. A bemeneti fázis megfelel a GSBP "tervezési" és "gyűjtési" fázisának, a "feldolgozási" és "elemzési" fázis teljesítményének, a kimenet pedig egyenértékű a "terjesztési" fázissal.
A struktúra hierarchikus struktúrát használ, amelyet a Statisztikai Hivatal által kifejlesztett adminisztratív adatszerkezetből vettek át (7 Daas, P., S. Ossen, R. Vis-Visschers és J. Arends-Toth, (2009), Checklist for the Quality értékelés of Administrative Data Sources. Statistics Netherlands, The Hague/Heerlen). A minőségi dimenziók egy hipertereknek nevezett hierarchikus struktúrába vannak beágyazva. A három meghatározott hiperdimenzió a „forrás”, „metaadatok” és „adat”. A minőségmérések ezekbe a hiperdimenziókba vannak beágyazva, és hozzá vannak rendelve az egyes gyártási lépésekhez. A beviteli szakaszban további szempontokat javasoltak a „magánélet és bizalmasság”, „bonyolultság” (az adatok szerkezetének megfelelően), a metaadatok „teljessége” és „összekapcsolhatóság” (az adatok más adatokkal való összekapcsolásának képessége), hogy szabványos minőséget adjunk a modellhez. Mindegyik minőségi mutatóhoz javaslatot tesznek a leírásukhoz kapcsolódó tényezőkre, valamint a lehetséges indikátorokra.
E cikk keretében a kockázatok kizárhatók ezekből a tényezőkből. Például az „intézményi/üzleti környezet” minőségének mérése során figyelembe veendő tényezők az adatszolgáltató fenntarthatósága. Ennek kockázata lehet, hogy az adatok a jövőben nem lesznek elérhetők az adatszolgáltatótól. Egy másik példa a minőség, a magánélet és a biztonság nemrég javasolt szempontjához kapcsolódik. Az egyik fontos tényező az „érzékelés”, vagyis az egyes adatforrások tervezett felhasználásának lehetséges negatív megítélése a különböző érdekelt felek részéről.
3. Az adatokhoz való hozzáféréssel kapcsolatos kockázatok
3.1. Az adatokhoz való hozzáférés hiánya
3.1.1. leírás
Ez a kockázat abból áll, hogy egy BOSP fejlesztési projekt nem fér hozzá a szükséges nagy adatforráshoz (BDS).
Mára az OSC keményen megtanulta, hogy néha még a rajtkockákból való kijutás és a hozzáférés megszerzése is leküzdhetetlen akadályt jelent. Néha könnyű elérni egy bizonyos forrást – például a hívási adatrekordokat (CDR-eket) tesztelési/kutatási célból, de sokkal nehezebb (jogi vagy kereskedelmi okokból) elérni azt termelési célból.
3.1.2. Valószínűség
A valószínűség nagymértékben függ a BDS jellemzőitől. Ha nagy adminisztratív adatokról van szó, ez akár 1 is lehet, különösen ha (mint a Daas és munkatársai által feltárt forgalmi hurok adatok esetében 8 Daas, P., M. Puts, B. Buelens és P. . van den Hurk. 2015. „Big Data mint a hivatalos statisztikák forrása” Hivatalos Statisztikák Lapja 31 (2) (megjelenés alatt; megjelenése 2015 júniusára várható.)) nincs adatvédelmi aggály. Ha a BDS-ügy magánszemély tulajdonában van, különösen, ha az érzékeny (például adatvédelmi szempontból) vagy értékes (kereskedelmi szempontból), annak valószínűsége nagyon magas lehet (5).
3.1.3. Befolyás
A hatás a BOSP-től és a BDS használatának módjától függ. Ha a BDS a középpontban van, a hatás nagyon nagy lehet (4 = egyáltalán nem lehet BOSP-t előállítani), míg kisebb lehet, ha még mindig lehetséges BOSP-t előállítani (bár gyengébb minőségben). más BDS-ekre támaszkodva, ami a 2-3 tartományba eső hatást eredményezi.
3.1.4. Megelőzés
A hozzáférés hiányának kockázatának csökkentése érdekében előzetesen fel kell venni a kapcsolatot az adatszolgáltatóval, és hosszú távú megállapodást kell kötni az adathozzáférésről. Ezenkívül átfogó jogi elemzést kell végezni a BDS és a BOSP konkrét kombinációjával kapcsolatban. Fel kell mérni az adatokhoz való hozzáférés lehetőségeit a jelenlegi vagy jövőbeli jogszabályokon keresztül is.
3.1.5. Enyhítés
Ha vannak alternatív BDS-ek, amelyek használhatók a BOSP-hez, akkor ezeket meg lehet vizsgálni. Ha nincs mód BOSP előállítására BDS nélkül, és ha a hozzáférés hiányát nem lehet leküzdeni, akkor az erőfeszítést fel kell hagyni, és nem lát napvilágot új BOSP.
3.2. Az adatokhoz való hozzáférés elvesztése
3.2.1. leírás
Ez a kockázat az, hogy a statisztikai hivatal elveszíti a BOSP alapját képező BDS-t.
3.2.2. Valószínűség
Ha a BOSP-t már gyártják, általában van némi stabilitás, és bizonyos esetekben a kockázat nagyon alacsony lehet (1). Azonban különösen az olyan magánjogi szervezetek esetében, amelyekkel nem kötöttek kellően határozott megállapodást, semmi sem akadályozza például. új iránymutatás az adatszolgáltatási politika változásából, ami mérsékelt törésveszélyt eredményez (3). Ezen túlmenően, ha a BDS instabil tevékenységgel jár, mindig fennáll annak a veszélye, hogy a szolgáltató egyszerűen csődbe megy, és a kockázat még magasabb is lehet (4).
3.2.3. Befolyás
Mivel egy meglévő BOSP előállítása nem biztos, hogy megvalósítható, ennek gyakran nagyon nagy a hatása (5). Más esetekben, ahol a BDS kiegészítő jellegű, a hatás inkább minőségromlás lehet, 2-3 tartományban.
3.2.4. Megelőzés
A megelőzési stratégia hasonló az adatokhoz való hozzáférés hiányához, de fokozott hangsúlyt fektet az állandó éberségre a termelési környezetben is.
Az is stratégia lehet, ha nem teszed az összes tojást egy kosárba (azaz több BDS van minden BSOP mögött), de lehet, hogy nem praktikus vagy túl költséges.
3.2.5. Enyhítés
Ha a BDS fenntarthatatlan tevékenység eredménye, akkor talán fokozatosan elérhető lesz egy új BDS, amely ugyanazt a társadalmi jelenséget tükrözi. A BSOP leállása után azonban túl késő lenne elkezdeni a „piac átvizsgálását”; állandó éberséget igényel – és ezt nehéz lehet elérni.
4. Jogi környezettel kapcsolatos kockázat
4.1. A vonatkozó jogszabályok be nem tartása
4.1.1. leírás
Ez a kockázat egy olyan BOSP fejlesztési projektből áll, amely nem veszi figyelembe a vonatkozó jogszabályokat, így a BOSP összeegyeztethetetlen az említett jogszabályokkal. Ez érintheti az adatvédelmi jogszabályokat, a válaszadási terhekre vonatkozó előírásokat stb.
4.1.2. Valószínűség
Tekintettel arra, hogy az OSC nem ismeri a big data-t, lehetséges, hogy alkalmanként (3) meg nem felelés fordulhat elő. A valószínűséget általában a BDS-hez társítják, mivel minél kevésbé "érzékeny" a forrás, annál kisebb az eltérés valószínűsége.
4.1.3. Befolyás
A hatás jellemzően kritikus (4) abban az értelemben, hogy a nem megfelelő gyártás miatt a BOSP-t le kell állítani (vagy ha még nem érte el a megvalósítási szakaszt, le kell állítani a fejlesztését). Ez akár szélsőséges is lehet (5), mivel a nem megfelelő („illegális”) hivatalos statisztikákból eredő hírnévkockázatok visszahathatnak.
4.1.4. Megelőzés
Minden BOSP esetében alapos jogi elemzést kell végezni - és ez több szakaszban történik (ami elfogadható a fejlesztési / feltárási szakaszban, az nem biztos, hogy az a megvalósítás / gyártás szakaszában). Ez viszont a BOSP újratervezéséhez vezethet, hogy kompatibilis legyen.
4.1.5. Enyhítés
A meg nem felelés súlyosságától függően az első lépés a BOSP offline állapotba állítása lehet.
Lehetséges a BOSP újratervezése, hogy megfelelő legyen, de az, hogy a BOSP-t ilyen módon „megmentik” vagy sem, nagymértékben függ a meg nem felelés természetétől.
4.2. Kedvezőtlen változások a jogi környezetben
4.2.1. leírás
A fejlesztés alatt álló BOSP-hez kapcsolódó új jogszabályokat lehetne bevezetni, ami gyakorlatilag összeférhetetlenné teszi a BOSP-t.
4.2.2. Valószínűség
Lehetséges, hogy az erős adatvédelmi szószólók olyan új követelményeket vezetnek be, amelyek közvetlenül vagy közvetve befolyásolják a konkrét BOSP-k létrehozásának lehetőségét. A 2-3 tartományba eső valószínűség reális becslésnek tűnik.
4.2.3. Befolyás
A hatás jellemzően kritikus (4), abban az értelemben, hogy a nem megfelelő gyártás a BOSP leállítását igényli.
4.2.4. Megelőzés
Bizonyos üzleti intelligenciákat rendszeresen le kell végezni a jogszabályok alakulásának nyomon követése érdekében – esetleg befolyásolni is azt a hivatalos statisztikák előmozdításával a vonatkozó (pl. tanácsadói) fórumokon.
4.2.5. Enyhítés
Feltéve, hogy proaktív nyomon követést hajtottak végre, lehet, hogy a BOSP-t újratervezik annak érdekében, hogy a hatályba lépésének első napjától összhangba kerüljön az új jogszabályokkal.
Ha viszont nem volt megfigyelés, hogy az új jogszabály "meglepetésként érjen" - vagy ha a jogszabály olyan radikális, hogy semmiképpen sem lehet összeférhetetlenné tenni a BOSP-t -, akkor az egyetlen lehetőség a BOSP letiltása lehet.
5. Adatvédelemmel és adatbiztonsággal kapcsolatos kockázatok
5.1. Adatbiztonság megsértése
5.1.1. leírás
Ez a kockázat a statisztikai hivatalok által birtokolt adatokhoz való jogosulatlan hozzáféréssel kapcsolatos. Harmadik felek olyan adatokat szerezhetnek be, amelyek embargó alá kerültek, például egy diagram kiadása miatt (9 Minden olyan BOSP esetében, amely teljes egészében egyetlen BDS-re épül, elkerülhetetlen, hogy az adatokat implicit módon megismerje az adatok eredeti tulajdonosa, és ha a módszertan átlátható, a származtatott statisztikák is ismertek lesznek. Ezzel a helyzettel itt nem foglalkozunk, hanem gyakorlati kockázatot jelenthet a tulajdonos adatának kockázata.) külön-külön.). Ilyenek lehetnek például azok az adatok, amelyeket a befektetők várnak a tőzsdén.
5.1.2. Valószínűség
A statisztikai egység informatikai környezetének védelmének technikai szempontjait tekintve a kockázat a BDS-ek esetében ugyanolyan valószínűséggel jelentkezik, mint a hagyományos források esetében. Azonban két további szempontot is figyelembe kell venni.
Először is, bizonyos BDS-ek esetén az általános kockázat kissé megnő, mivel az adatok biztonsága az eredeti tulajdonosnál veszélybe kerülhet. Ennek oka lehet például ipari kémkedés vagy hackelés.
Másodszor, amint potenciálisan értékes adatokat kezdenek el tárolni az irodában, megnő a rosszindulatú szándékok felkeltésének kockázata. Ha a tárolt adatok nagyon magas üzleti értékkel bírnak, akkor nagyon nagy valószínűséggel kell felkészülni az IT infrastruktúrát érő támadásokra, így a feltörés valószínűsége nagyobb lehet (4).
Ha a tárolt adatokat nem tekintik értéknek, akkor az általános valószínűség nem túl magas, az adatok forrásától függően (1) és (3) között mozog.
5.1.3. Befolyás
A potenciális hírnév-károsodás nagy lehet (5). A BDS esetében az a fontos, hogy ha az eredeti tulajdonosnál bekövetkezik a biztonság megsértése, akkor a statisztikai hivatal jó hírnevére gyakorolt hatás várhatóan kisebb lesz, mintha az általa tárolt adatokat megsértenék.
Másrészt előfordulhat, hogy a statisztikai hivatal megsértése negatív következményekkel járhat az eredeti tulajdonosra nézve. Ebben az esetben is erős negatív hatás lehetséges a szállító és a statisztikai hivatal közötti bizalom károsodása miatt (5).
5.1.4. Megelőzés
A BDS-ügyre jellemző, hogy az eredeti tulajdonos biztonsági eljárásai megfelelőek lehetnek. Nem valószínű, hogy a statisztikai hivatalok ellenőrzési felhatalmazást kapnak ennek felügyeletére. Azokat a tulajdonosokat, akiknek adatait kényes közzétételi ütemtervekkel rendelkező nyilvántartások készítésére használják fel, tájékoztatni kell a létesítményeik biztonságának esetleges megsértésének a hivatalos statisztikákra gyakorolt következményeiről, és hivatalos biztosítékot kell kapniuk arról, hogy megfelelő biztonsági eljárások működnek.
Közvetlen módja annak, hogy megakadályozzuk, hogy a tulajdonos telephelyén bekövetkezett biztonsági megsértés komoly hatással legyen a statisztikai hivatalra, ha több forrást is felhasználnak ugyanarra a termékre, így egy kompromittált forrás nem elegendő a végleges adat elkészítéséhez. Ennek a megközelítésnek az az előnye, hogy a nagyobb ellenőrzés a statisztikai hivatal kezében van.
A statisztikai hivatal biztonságának megsértésének az adatok eredeti tulajdonosára gyakorolt negatív hatását úgy lehet megelőzni, ha olyan munkamódszert találunk, amely nem jár a tulajdonosi szempontból potenciálisan érzékeny adatok statisztikai hivatalba történő továbbításával. Nyers. Egy lehetséges megelőző megközelítés az összesített adatok használata. Emlékeztetni kell azonban arra, hogy az összesítés egyes formái, például azok, amelyek célja a populáció egyes tagjainak azonosításának megakadályozása, nem biztos, hogy megfelelőek ebben az esetben. Ennek egyik oka lehet, hogy a tulajdonos kockázata az adatok kereskedelmi értékével függ össze, ami az anonimitás elérése után is jelentős lehet.
5.1.5. Enyhítés
A statisztikai hivatal birtokában lévő adatok megsértése esetén a mérséklő intézkedések ugyanazok, mint a hagyományos források esetében, kivéve, ha az az eredeti tulajdonost negatívan érinti.
Az eredeti tulajdonost érő negatív hatás esetén a statisztikai hivatalnak felül kell vizsgálnia és meg kell erősítenie biztonsági eljárásait, és egyértelműen kommunikálnia és igazolnia kell az ez iránti elkötelezettségét.
Ha a jogsértés az eredeti tulajdonos telephelyén történt, akkor az illetékes statisztikai hivatalnak egyértelműen közölnie kell a helyzetet, és ragaszkodnia kell a tulajdonos biztonsági eljárásainak javításához. Ha szükséges, kereshet alternatív beszállítót.
5.2. Adatvédelmi jogsértések
5.2.1. leírás
Ez annak a kockázata, hogy a lakosság egy vagy több személyének bizalmas kezelése sérül. Ennek oka lehet az informatikai infrastruktúra elleni támadás más kormányzati szervek nyomása miatt, vagy a statisztikai adatok közzétételére vonatkozó nem megfelelő ellenőrzési intézkedések miatt.
5.2.2. Valószínűség
Az adatbiztonsági kockázathoz hasonlóan a mikroadattárolási előírások sem változnak sokat a BDS hozzáadásával. Azonban itt is vannak figyelmeztetések.
Az egyes adatforrásokból származó mikroadatok nagy üzleti értéket képviselhetnek, így tárolásuk növeli a támadások esélyét.
Ezenkívül egyes mikroadatok nagyon hasznosak lehetnek más kormányzati szervek, például a bűnüldözés, az adózás vagy az egészségügy számára. Bizonyos körülmények között nagy nyomás nehezedhet a statisztikai titoktartás elvének betartására.
A statisztikai adatok nyilvánosságra hozatalának ellenőrzési kudarcait illetően mára már bevált gyakorlat van. A BDS lehetővé teheti statisztikai adatok készítését kis alpopulációkra, vagy lehetőséget biztosít a különböző BDS-ekből származó összesített adatok összekapcsolására, ami növelheti a kockázat előfordulásának valószínűségét. Emellett az új források új módszertani fejlesztéseket igényelnek, így a valós veszély az, hogy a nyilvánosságra hozatal ellenőrzési módszertanát nem frissítik megfelelően.
Általánosságban elmondható, hogy ésszerű megelőző intézkedésekkel a valószínűség ésszerű szinten tartható, de mivel sok különböző és változatos tényező létezik, a megfelelő értékelés itt az, hogy a valószínűség magas (4).
5.2.3. Befolyás
A potenciális hírnév-károsodás nagy lehet (5). Az adatszivárgás kockázatához hasonlóan a statisztikai hivatalban történt incidens is negatív következményekkel járhat az eredeti tulajdonosra nézve. Itt egy ilyen esemény hatása még nagyobb lehet, különösen, ha a közvélemény jelenlegi tendenciái folytatódnak. Az adatszolgáltató és a statisztikai hivatal közötti kapcsolat károsodása is várhatóan igen nagy lesz.
5.2.4. Megelőzés
Ennek a kockázatnak a megelőzésének biztos módja az, ha egyáltalán nem rendelkezünk BDS-mikroadatokkal (bár más mikroadatok tárolása továbbra is ugyanazzal a kockázattal jár, bár eltérő valószínűséggel és hatással). Egy ilyen út, akárcsak az adatbiztonsági kockázat esetében, az adatok statisztikai célú felhasználásának más módjainak kidolgozását vonja maga után. Ezen túlmenően a források eltérő természete azt jelenti, hogy új módszereket kell kidolgozni, versengő célokkal a lehető legtöbb hasznos információ kinyerésére és a magánélet védelmére a veszélyekkel szemben.
Mikroadattárolás esetén az informatikai biztonsági és hozzáférés-ellenőrzési mechanizmusoknak a szükséges szinten kell lenniük és folyamatosan figyelemmel kell lenniük. Különös figyelmet kell fordítani az új adatszerzési módok biztonságának biztosítására. Ironikus módon ez az új mód a tárolóeszközök (például merevlemezek) fizikai szállítása lehet. Ha ezt a módszert alkalmazzuk, akkor a kézbesítést fizikailag biztosítani kell, és titkosítást kell alkalmazni.
5.2.5. Enyhítés
A mérséklő intézkedések itt alapvetően ugyanazok, mint az adatszivárgás esetén. Ha a jogsértés oka egy másik hatóság nyomása, akkor meg kell ragadni a lehetőséget a közigazgatás függetlenségének megerősítésére, hogy az ilyen jogsértések a jövőben még nehezebbé váljanak.
5.3. Adatforrás manipuláció
5.3.1. leírás
A harmadik felek adatszolgáltatóit, például a közösségi média adatait vagy az önkéntesen megadott adatokat, fennáll a manipuláció veszélye. Ezt maga az adatszolgáltató vagy harmadik fél is megteheti. Például sok hamis poszt generálható a közösségi médiában annak érdekében, hogy az ezekből az adatokból származtatott statisztikai indexet így vagy úgy tolják, ha ismert, hogy az indexet ilyen adatokból számítják.
Az önkéntesen megadott adatok esetében előfordulhat, hogy az önkéntesek meghatározott érdekcsoportot képviselnek, meghatározott napirenddel.
5.3.2. Valószínűség
Azoknál az adatoknál, amelyek manipulálva hasznosabbak lehetnek, nagyobb a valószínűsége. Ezek olyan adatok lehetnek, amelyekre a statisztikák érdekesek, például a tőzsde. A közelmúlt LIBOR- és Forex-botrányai fényében feltételezhető, hogy amíg az inger megvan, addig adatmanipulációs kísérletek valószínűek.
Az önkéntes adatokon alapuló statisztikákhoz elég csak megnézni a közelmúltban alkalmazott PR-gyakorlatot, amikor olyan embereket alkalmaznak, akik úgy tesznek, mintha saját véleményük lenne, és akiket fizetnek a nyilvános megnyilvánulásért (például internetes fórumokon), hogy megállapítsuk, ennek nem kicsi a valószínűsége. Általában a 3-tól 4-ig terjedő szám megfelelőnek tűnik.
5.3.3. Befolyás
A manipulációkkal az a nagy probléma, hogy hosszú ideig tartanak anélkül, hogy észlelnék őket. Ha a manipuláció hosszú ideig folytatódik, a minőségre gyakorolt hatás jelentőssé válhat. Ezen túlmenően a közvélemény hivatalos statisztikába vetett bizalmának csorbítása is nagy lehet, különösen, ha nyilvánosan hangsúlyozzák a statisztikai hivatalok minőségi adatszolgáltatói szerepét. Másrészt, ha a manipulációkat időben észlelik, majd közzéteszik, az valóban javíthatja a közvéleményt. A rendkívül rossz esetek kivételével a maximális hatás (3) ábrázolható.
5.3.4. Megelőzés
Az egyik lehetséges megelőző megközelítés a rendszeres ellenőrzési gyakorlatok végrehajtása alternatív forrásokkal. Ezek az alternatív források lehetnek hagyományosak vagy egyébek. A források kombinációján alapuló statisztika használatával elkerülhető a jelentős manipulációs hatás. Azokban az esetekben, amikor az internetszolgáltatók által kezdeményezett manipulációtól tartanak, a jogi megállapodások is az ilyen gyakorlatok megakadályozásának egyik módja lehet.
5.3.5. Enyhítés
Ami a PR-kárt illeti, az itt meghozandó enyhítő intézkedések nem sokban különböznek azoktól, amelyek bármilyen válsághelyzet kezelésére irányulnak.
Adatminőségi szempontból hasznos lenne, ha a múltbeli adatok korrigálhatóak lennének, hogy akár nagy késéssel is a helyes sorozatok legyenek
előállított. Ebben hasznos lehet a rendszeres benchmarking. Vegye figyelembe, hogy a benchmarking célja ebben az esetben kissé eltér a megelőzés céljától. A megelőzés érdekében fontos, hogy gyorsan észrevegyük és kivizsgáljuk a benchmark adatok és a BDS közötti gyanús eltéréseket. Enyhítési célokra a régi rakományok mindig hasznosak.
Ezen túlmenően ügyelni kell arra, hogy a jövőben elkerüljük a hasonló manipulációkat – különösen kényes esetekben ez azt is jelentheti, hogy több szállítótól is be kell szerezni az esetlegesen redundáns adatokat összehasonlító elemzés céljából.
5.4. Kedvezőtlen közvélemény a big data hivatalos statisztikai felhasználásáról
5.4.1. leírás
A média és a közvélemény nagyon érzékeny a magánélet védelmével és a nagy adatforrásokból származó személyes adatok felhasználásával kapcsolatos kérdésekre, különösen az adatok másodlagos felhasználásával összefüggésben, amelyet a kormányzati szervek adminisztratív vagy jogi lépéseket tesznek az állampolgárokkal szemben. Negatívan észlelt felhasználási terület lehet a sebességszabályozási helymeghatározás a navigációs adatok elemzése alapján (11 Lásd ).
A TomTom Netherlands konkrét esete jelentős visszaesést okozott a TomTom eszközök iránti keresletben, és a vállalat úgy döntött, hogy korlátozza az adatokhoz való hozzáférést. Ebben a konkrét esetben az adatok egyénekre vonatkoztak, de útszakaszok szerinti sebességszintekre vonatkoztak.
Vannak azonban olyan big data alkalmazások, amelyeket pozitívan fogad a közvélemény. Ilyen például az olyan alkalmazások, amelyek a big data technikákon alapuló bűncselekményeket, például betöréseket akadályoznak meg.
A pozitív és a negatív közvélemény erős hatással lehet a BDS használatára a hivatalos statisztikák készítésekor.
A közvélemény negatív megítélése a következőket eredményezheti:
- A BDS a továbbiakban nem lesz elérhető a statisztikai hivatalok számára sem adatszolgáltatói, sem kormányzati döntések miatt, amelyek nem használják fel az adatokat, ill.
- az adatok felhasználása korlátozott lesz, ami bizonyos BOSP esetén zavarhatja a gyártást.
5.4.2. Valószínűség
Tényezők, amelyek befolyásolhatják egy ilyen esemény valószínűségét vagy annak a statisztikák előállítására gyakorolt hatását:
- adatvédelem, azaz mennyire könnyen azonosíthatók az emberek;
- a különböző forrásokból származó adatok összekapcsolása növeli például az egyénekről feltárt adatok mennyiségét;
- az adatok típusa, például a pénzügyi tranzakciókat bizalmasabbnak tekintik, mint más adatokat;
- a polgárokkal szemben megtehető lehetséges intézkedések típusa, például gyorshajtás miatti pénzbírság;
- tisztázatlan jogi környezet, amelyben az adatszolgáltatók és -felhasználók működnek, vagy ha a jogi feltételek ütköznek a közetikai véleményekkel/normákkal;
- egy adott adatforrástól való függőség mértéke a statisztikai adatok megszerzéséhez; a feltárási szakaszban ennek a tényezőnek kisebb jelentősége lehet. Ez azonban egy későbbi szakaszban nagyon erős hatással lehet a statisztikák beszerzésére, ezért a feltárás szakaszában is figyelembe kell venni. Az egyik probléma az lehet, hogy az adatfelhasználás végső mértéke kezdetben nem ismert, mivel az adatforrások potenciálisan több statisztikai területet is kiszolgálhatnak.
A nemkívánatos események időpontjának becslése nem lehetséges, mivel a lakosság mozgósítását gyakran a polgárokra negatív hatást gyakorló események tudósítása váltja ki. Azonban a kormányok és a magánvállalkozások általi használatának növekedésével, és különösen az adatoknak az eredeti gyűjtéshez vezetőtől eltérő célokra történő aktív marketingjével, az ilyen események nagyobb valószínűséggel fordulnak elő.
A közvéleményt erősen befolyásoló események nem gyakoriak, inkább véletlenszerűek (3) és távoliak (2). A nagy adatforrások használatának növekedésével ennek valószínűsége is nő.
5.4.3. Befolyás
Egy esemény hatása nagymértékben függ a fent tárgyalt tényezőktől. Általánosságban elmondható, hogy a hatás súlyosabb a már kialakult statisztika készítésére, mivel a műveletet talán meg kell szüntetni. A hatás az alternatív adatforrások elérhetőségétől is függ, bár előfordulhat, hogy a közfelfogás nem tesz különbséget a különböző adatforrások között egy esemény megvalósulása esetén. A big data felhasználás jelenlegi állása szerint úgy tűnik, hogy ezek a források nem helyettesíthetik teljesen a hagyományos adatforrásokat, inkább kiegészítik a meglévő statisztikákat. Ez csökkenti az események hatását. Ezért az esemény hatását a 2 (kisebb) és 3 (jelentős) tartományban veszik figyelembe. A gyártási szakaszban a befolyás 4-re (kritikus érték) nőhet.
5.4.4. Megelőzés
Megelőző intézkedések lehetnek a hivatalos statisztikákban szereplő big data etikai elveinek meghatározása. Az etikai iránymutatásoknak olyan elveken kell alapulniuk, mint az európai statisztikák gyakorlati kódexe vagy a hivatalos statisztikák alapelvei (12 ). A következő lépés egy kommunikációs stratégia meghatározása lesz, amely közzéteszi az etikai irányelvek eredményeit a nyilvánosság számára, és amely felhasználható az érdekelt felek tájékoztatására a BDS BOSP számára történő etikus használatáról.
Egy adott BDS esetében külön kockázatértékelés végezhető a kockázatok azonosítása és az etikai elveken alapuló megelőző vagy enyhítő intézkedések javaslata érdekében. Egy külön kockázatértékelésben részt vehetnek az érdekelt felek, például az adatvédelmi ügynökségek is, hogy biztosítsák az összes kockázat azonosítását és az intézkedés indokoltságát.
5.4.5. Enyhítés
A kommunikációs stratégiának tartalmaznia kell intézkedéseket arra az esetre is, ha a lakosság negatív attitűdje erősödik. Külön kockázatértékelésnek kell összegyűjtenie az adatfelhasználás pozitív példáit és az adatokkal való visszaélések megelőzését célzó intézkedéseket, amelyekre szükségszerűen politikai szinten kerülhet sor, és ezeket a statisztikai közösség nem tudja hatékonyan befolyásolni.
5.5. A bizalom elvesztése – nem a megfigyelés eredményeként érhető el
5.5.1. leírás
A hivatalos statisztikák felhasználói általában nagyon bíznak a statisztikák pontosságában és megbízhatóságában. Ennek alapja, hogy a statisztikai adatok előállítása megbízható és nyilvánosan elérhető módszertani bázisba épül, valamint a statisztikai termék minőségének dokumentálása. Ráadásul a statisztikák nagy része megfigyeléseken alapul, pl. olyan felmérésekből vagy összeírásokból származik, amelyek könnyen érthető kapcsolatot teremtenek a megfigyelés és a statisztika között. A nem a statisztika elsődleges céljaira gyűjtött BDS-ek használata azzal a kockázattal jár, hogy ezek a kapcsolatok elvesznek, és a felhasználók elvesztik a hivatalos statisztikákba vetett bizalmukat. A népszámlálás utolsó fordulójához (2010-hez) kapcsolódó példa, hogy egyes országokban a statisztikákat többféle forrásból és statisztikai modellekből nyerték. Az érdekeltek számos esetben vitatták a statisztikákat.
5.5.2. Valószínűség
A kockázat bekövetkezésének valószínűsége olyan tényezőktől függ, mint a statisztikai/módszertani modell összetettsége, a BSD és a BOSP közötti kapcsolat érvényessége vagy más statisztikákkal való összhang. A valószínűségnek 3 (véletlen) és 4 (valószínű) tartományban kell lennie, ami azt jelenti, hogy többször vagy gyakran előfordulhat.
5.5.3. Befolyás
A kockázat előfordulásának hatása nagymértékben függ attól, hogy az NSO-k sikeresen tudják-e bizonyítani a statisztikák pontosságát és érvényességét. Abban az esetben, ha ez nem valósítható meg, a bizalom- és hitelességvesztésre gyakorolt hatás más statisztikai területeket is érinthet, vagyis nemcsak a statisztikák egy részének érvényességét, hanem magát a szervezetet is megkérdőjelezi. Az NSO-k elveszítenék versenyelőnyüket az ezen a területen működő többi magánszervezettel szemben.
5.5.4. Megelőzés
A megelőző intézkedések közé tartozik a tudományos közösség által elismert, bizonyítékokon alapuló módszertan kidolgozása és közzététele, az adatok minőségi metaadatokkal való gazdagítása, a BOSP és a nem BOSP konzisztens biztosítása, valamint szigorú minőségellenőrzések végrehajtása.
A statisztikai előállítás megkezdése előtt a BOSP-t kísérleti jelleggel közzé lehetne tenni, és az érdekelt feleket arra ösztönöznék, hogy megtámadják a BOSP-t a BOSP validálása vagy javítása érdekében.
5.5.5. Enyhítés
Két esetet kell megkülönböztetni. Abban az esetben, ha a statisztikák vitathatóak, de jó/kellő minőségűek (helyesek/pontosak), elegendő lenne a statisztikákat közérthető példákkal magyarázni és közölni a nyilvánossággal.
6. A készségekkel kapcsolatos kockázatok
6.1. Szakemberek hiánya
6.1.1. leírás
Az emberek által tevékenységük során hagyott digitális lábnyomok elemzése bizonyos adatelemző eszközöket igényel, amelyek jelenleg nem a legelterjedtebbek a hivatalos statisztikákban. Először is, a közvetett emberi tevékenységre vonatkozó adatok felhasználása a felmérésekben a közvetlen felmérések helyett statisztikai modellek használatát, következésképpen következtetési és gépi tanulási készségeket igényel. Másodszor, ezek a digitális rekordok olyan adatokból állnak, amelyek gyakran nem rendelkeznek a felmérési eredményekre jellemző szokásos táblázatos formátummal, a statisztikai egységnek megfelelő sorokkal és az adott statisztikai egységek sajátos jellemzőit tartalmazó oszlopokkal. A digitális számok szöveg, hang, kép és videó formájában is megjelennek. A releváns statisztikai információk ilyen típusú adatokból való kinyeréséhez a természetes nyelvi feldolgozás, a hangjel-feldolgozás és a képfeldolgozás készségeire van szükség. Harmadszor, ezek az adatforrások általában hatalmas adatkészleteket biztosítanak, amelyek feldolgozása megköveteli az elosztott számítási módszerek alapos megértését.
A szakértői hiány kockázata abban rejlik, hogy egy-egy ilyen új big data forrásból nyerünk adatokat, mivel a statisztikai hivatalnak nincs kapacitása ezek megfelelő feldolgozására és elemzésére, mivel munkatársai nem rendelkeznek a szükséges ismeretekkel.
6.1.2. Valószínűség
Ennek a kockázatnak a valószínűsége három tényezőtől függ: 1) az egyes típusú big data forrásokhoz szükséges speciális készségtípusok és annak valószínűsége, hogy a statisztikai hivatal lehetőséget talál egy ilyen forrás tanulmányozására; 2) a szükséges készségek jelenlegi rendelkezésre állása a statisztikai hivatalban; valamint 3) a statisztikai hivatal szervezeti kultúrája.
Ami a szükséges készségek típusait illeti, meg kell jegyezni, hogy nem minden forrás igényli a fent felsorolt készségek mindegyikét. Egyes adatok (például a Google Trends) nem igényelnek elosztott számítást, mivel az adatbirtokos már előre feldolgozta őket, vagy jelfeldolgozási ismeretekkel rendelkeznek, és többnyire statisztikai modellezési készségekre lesz szükségük. Azonban a nagy adatforrások széles választéka létezik, amelyek többsége elosztott számítási, jelfeldolgozási és gépi tanulási készségeket igényel. Ugyanakkor ezeknek a digitális nyomoknak a helyes tanulmányozása több forrás feldolgozását igényli. Így nagy a valószínűsége annak, hogy a statisztikai hivatal rendelkezésére álló nagy adatforrások megkövetelik ezeket a szokatlan készségeket, és ennek a kockázatnak nagyon nagy a valószínűsége (5).
Ami a szükséges készségek jelenlegi elérhetőségét illeti, ez az adott statisztikai hivataltól függ. Még ha a felmérés módszertana kevésbé elterjedt is, mint a felmérés módszertana, bizonyos területeken a hivatalos statisztikákban is alkalmazzák. Ezért még ha ez némi humánerőforrás-átcsoportosítást is igényelhet, a statisztikai hivatalok önállóan is találhatnak megoldást. Ami az elosztott számítástechnikai ismereteket leginkább az informatikához köti, attól függ, hogyan kezelik az IT infrastruktúrát a szervezetben. Attól függően, hogy az informatikai részleg mennyire kiszervezett, a meglévő megállapodások keretein belül is lehet megoldást találni. A jelfeldolgozási és gépi tanulási ismeretek azonban általában nem léteznek a legtöbb hivatalos statisztikai hivatalban, és e készségek alkalmazását nem lehet kiszervezni, mivel ezeket statisztikai szakértőknek kell alkalmazniuk. Ezért ebből a szempontból ennek a kockázatnak a valószínűsége is nagyon magasnak tűnik (5).
A szervezeti kultúra szintén befolyásolja ennek a kockázatnak a valószínűségét. Ha az alkalmazottak hajlandóak önálló tanulás útján megszerezni a szükséges készségeket, akkor a szervezet képes reagálni egy olyan új adatforrásra, amely a hagyományostól eltérő készségeket igényel. Ez a statisztikai hivatal szervezeti kultúrájától függ, nevezetesen, hogy az új készségek elsajátítására ösztönzi-e az alkalmazottakat, és hogy ez hagy-e időt a személyzetnek az önálló tanulásra.
Így annak a valószínűsége, hogy egy statisztikai hivatal nem tudja feldolgozni és elemezni az új adatforrásokat a munkatársak képzettségének hiánya miatt, a szervezet öntanulási kultúrájától függően valószínű (4) és gyakori (5) közé esik.
6.1.3. Befolyás
Annak a statisztikai hivatalnak, amely nem tud nagy adatforrásokat feldolgozni és elemezni munkatársai képzettségének hiánya miatt, két lehetséges negatív következménnyel járhat: 1) az adatforrást nem tanulmányozzák, legalábbis nem teljesen; 2) a forrással visszaélnek.
Ha nem sikerül teljes mértékben feltárni egy értékes nagy adatforrásban rejlő lehetőségeket, annak rövid távon csekély hatása (2) lesz, mivel a statisztikai hivatalok rendelkeznek a jelenlegi igények kielégítésére szolgáló statisztikai eszközökkel. Azonban hosszú távon (és talán még középtávon is) e lehetőség elvesztésének következményei döntőek lesznek (4), mivel a statisztikai hivatalok egyre inkább szembesülnek a magánszolgáltatók versenyével, amelyek nem rendelkeznek ugyanazzal az intézményi struktúrával, amely lehetővé tenné számukra, hogy a statisztikai adatok függetlenségét a társadalom számára garantálják.
A forrással való visszaélés azonban rendkívül negatív következményekkel jár a statisztikai hivatalokra nézve, mivel a hivatalos statisztikák nagymértékben támaszkodnak hírnevükre küldetésük teljesítése során. Azonban vitatkozhatunk azzal, hogy a legfontosabb készség, amely kihagyása hibás eredményekhez vezethet, a statisztikai következtetés, különösen a modell alapú következtetés, amely szintén kevésbé valószínű, hogy hiányzik. Ezért a várható hatás kritikus (4) lesz, nem pedig szélsőséges.
6.1.4. Megelőzés
A statisztikai hivatalok kétféle módon tudják aktívan megelőzni ezt a kockázatot: 1) képzés; és 2) állítsa be.
A statisztikai hivatalok úgy tudják biztosítani a személyzetet a szükséges készségekkel, hogy részletesen meghatározzák a nagy adatforrások statisztikai készítésben való használatához szükséges készségeket, felsorolják a meglévő személyzeti képességeket, azonosítják a képzési igényeket, majd képzéseket szerveznek.
A statisztikai hivatalok a szükséges szaktudással rendelkező új munkatársakat is felvehetik. Úgy tűnik, ennek komoly korlátai vannak, mivel a statisztikai hivatalok nem lesznek képesek kritikus tömegű személyzetet toborozni olyan helyzetekben, amikor a nagy adatforrások használata széles körben elterjedt a hivatalban, és az új munkatársaknak még mindig több évbe telik, amíg elérik a meglévő munkatársak tapasztalati szintjét. Azonban a rendszeres fluktuáció keretében felvett új alkalmazottak közül legalább néhány rendelkezik big data készségekkel.
6.1.5. Enyhítés
Olyan helyzettel szembesülve, amikor a szükséges szaktudással rendelkező személyzet nélkül új big data források állnak rendelkezésre, a statisztikai hivatalok kétféleképpen mérsékelhetik a negatív hatást: 1) alvállalkozás; és 2) együttműködés.
A statisztikai hivatalok adatfeldolgozásra és új big data források elemzésére szerződést köthetnek más ilyen jellegű szolgáltatásokat nyújtó szervezetekkel. Ez életképes megoldásnak tűnik, mivel van egy új vállalati szektor, amely az ilyen típusú adatok feldolgozására szakosodott. Ez azonban már önmagában is bizonyos kockázatokat rejt magában, hiszen a statisztikai hivatal kevésbé fogja ellenőrizni az esetlegesen érzékeny statisztikai termékek előállítását. Ennek a megoldásnak az a hátránya is, hogy nem teszi lehetővé a statisztikai hivatal munkatársainak a tanulást és a szükséges ismeretek elsajátítását.
Ígéretesebb megoldásnak tűnik a más szervezetekkel való együttműködés, amelyekben a szükséges képességekkel rendelkező alkalmazottak, és a big data forrásának feltárása is érdekelt. Ez az együttműködés megvalósulhat közös projektek formájában a statisztikai hivatal munkatársaival és más szervezetek munkatársaival, mint egyenrangú, akik megosztják tudásukat. Ez nemcsak a szakképzettség hiányának kockázatát csökkentené, hanem a statisztikai hivatalok munkatársai számára is lehetővé tenné ezen ismeretek elsajátítását.
6.2. Szakértők kiszivárogtatása más szervezetekhez
6.2.1. leírás
Ez a kockázat abban rejlik, hogy a statisztikai hivatalok elveszítik alkalmazottaikat más szervezetektől, miután elsajátították a big data-hoz kapcsolódó ismereteket.
6.2.2. Valószínűség
Ennek a kockázatnak a valószínűsége két tényezőtől függ: 1) a hivatalos statisztikákon kívüli szervezetekben meglévő vonzó lehetőségek; 2) munkakörülmények a statisztikai hivatalokban.
A hivatalos statisztikákon kívüli szervezetekben rejlő lehetőségeket tekintve ennek a kockázatnak a valószínűsége valószínűnek tűnik (4). A magánszektorban és más közszféra szervezeteiben nagy az igény a big data készségekkel rendelkező emberekre. A big data ismeretek elsajátítása után a hivatalos statisztikusok tapasztalt statisztikusként komparatív előnyre tesznek szert. A specifikus big data készségek mellett más szervezeteknek hagyományosabb készségekkel rendelkező adattudósokra van szükségük, mint például a felhasználói igények felmérése és a hivatalos statisztikusok számára közös kulcsfontosságú teljesítménymutatók (KPI) kidolgozása. Emellett várhatóan azok a munkatársak is nagyobb valószínűséggel sajátítanak el új ismereteket, akik nyitottabbak lesznek a pályamódosításokra, és elhagyják a statisztikai hivatalt.
Ami a statisztikai hivatalok munkakörülményeit illeti, ez nyilván elsősorban az adott hivataltól függ majd. A statisztikai hivatalok azonban általában még mindig vonzó szakmai lehetőségeket kínálnak az emberek számára mennyiségi szempontból. A statisztikai hivatalok a lehető legnagyobb tartományt kínálják a munkavégzéshez, és a legnagyobb adatválasztékot. Ez valamilyen módon csökkenti annak valószínűségét, hogy a statisztikai hivatalok előre nem látható körülmények miatt elveszítsék alkalmazottaikat (3).
6.2.3. Befolyás
Ennek a kockázatnak a hatása ugyanolyan lesz, mint annak a kockázatával, hogy eleve nem lesz megfelelő készségekkel rendelkező személyzet. Ezért a hatás kritikus lesz (4), mint fent.
6.2.4. Megelőzés
Úgy tűnik, hogy a statisztikai hivatalok egyetlen módja annak megelőzésére, hogy vonzó munkakörülményeket biztosítsanak alkalmazottaik számára. Ez általában minden alkalmazottra igaz. Abban a konkrét esetben azonban, amikor a munkavállalók nyitottak az új készségek, nevezetesen a big data készségek elsajátítására, a munkakörülmények javíthatók, ha olyan tanulási lehetőségeket biztosítanak számukra, ahol fejleszthetik szakmai érdeklődésüket. A statisztikai hivatalok kiemelt figyelmet fordíthatnak arra is, hogy nyitottak legyenek a statisztika több területén dolgozó statisztikusoktól érkező új innovatív projektekre és ötletekre, amelyek a big data új forrásaival kapcsolatosak. Végül pedig az, hogy más szervezetek nagy adathalmazai során ne veszítsék el a személyzetet, azon múlik, hogy jól azonosítják-e az ilyen adatokkal dolgozni tudó és hajlandó személyzetet, és jó lehetőségeket biztosítanak-e szakmai fejlődésükhöz.
6.2.5. Enyhítés
E kockázat mérséklése a megfelelő szakképzettséggel rendelkező személyzet hiányának kockázatával összefüggésben történik: 1) alvállalkozás; és 2) együttműködés.
7. Megbeszélés
Ebből az első áttekintésből világosan látszik, hogy nem lehet egyetlen valószínűséget vagy hatást megállapítani egy adott „big data kockázatra” – általában mindkét mérőszám nagymértékben függ a big data forrásától, valamint a „hivatalos big data statisztikától”.
termék."
Így arra a következtetésre jutottunk, hogy egy logikus következő lépés ebben az irányban az, hogy számos lehetséges kísérleti projektet veszünk (mindegyik egy vagy több BDS és egy vagy több BDOS kombinációját tartalmazza), és – minden ilyen kísérlet esetében – megkíséreljük értékelni az egyes kockázatok valószínűségét és hatását.
Ennek érdekében az érdekelt felek felmérésének küszöbén állunk, megkísérelve felmérni az OSC értékelését számos lehetséges kísérleti projekt valószínűségéről, hatásáról (és lehetséges elkerülési/mérséklési intézkedésekről), és kikérjük az OSC javaslatait az általunk tapasztalt kockázatokra vonatkozóan. nem szerepel ebben a papírban..
8. IRODALOMUNECE (2014), „A Big Data minőségének javasolt keretrendszere”, Az UNECE Big Data minőségi feladatcsoportjának eredményei,
a%20Quality%20Framework%20-%20final-%20Jan08-2015.pdf?version=1&modificationDate=1420725063663&api=v2
UNECE (2014): Mekkora a Big Data? A Big Data szerepének feltárása a hivatalos statisztikákban”
Daas, P., S. Ossen, R. Vis-Visschers és J. Arends-Toth, (2009), Checklist for the Quality értékelés of Administrative Data Sources, Statisztika Hollandia, Hága/Heerlen
Dorfman, Mark S. (2007), Introduction to Risk Management (e ed.), Cambridge, UK, Woodhead-Faulkner, p. 18, ISBN 0-85941-332-22)
Eurostat (2014), „A nem hivatalos forrásokból származó statisztikai adatok akkreditációs eljárása” az Internet információs társadalommal összefüggő és egyéb statisztikák gyűjtésére szolgáló módszertanának elemzésében,
Reimsbach-Kounatze, C. (2015), „The Proliferation of „Big Data” and Implikations for Official Statistics and Statistical Agencies: A Preliminary Analysis”, OECD Digital Economy Papers, No. 245, OECD Publishing.
Reis, F., Ferreira, P., Perduca, V. (2014) „The use of webactivity bizonyítékok a hivatalos statisztikai mutatók idővonalainak növelésére”, az IAOS 2014 konferencián bemutatott cikk,
Még ha nem is említi kifejezetten a kockázatokat, ez a cikk valójában megközelíti a webes tevékenységi adatok hivatalos statisztikákhoz való felhasználásával kapcsolatos számos kockázatot. Eurostat (2007), Kézikönyv az adatminőség-értékelési módszerekről és eszközökről,
Forrás: will.com
