Strukturování rizik a rozhodnutí při používání BigData k získání oficiálních statistik

Předmluva překladatele

Materiál mě zaujal především kvůli následující tabulce:

Strukturování rizik a rozhodnutí při používání BigData k získání oficiálních statistik

S přihlédnutím k tomu, že statistici (a ti ruští, na genetické úrovni), mírně řečeno, nemají rádi nic, co se liší od lineárního vztahu, se těmto chlapíkům podařilo prosadit použití aktivační funkce v parabolické podobě určit míru rizika používání BigData v oficiálních statistikách. Výborně. Statistikové k této práci přirozeně přidali svou vlastní poznámku – „1 Jakékoli chyby nebo opomenutí jsou výhradní odpovědností autorů. Názory vyjádřené v tomto dokumentu jsou osobní a nemusí nutně odrážet oficiální stanovisko Evropské komise.“ Ale dílo bylo zveřejněno. Myslím, že pro dnešek to stačí a nikomu (autoři) nezakázali najít si v těchto aspektech vlastní měřítka.

Poměrně strukturovaným způsobem je možné oddělit, kde a jak se statistické metody liší od výzkumných metod pro velká data. Podle mého názoru bude největší přínos této práce při rozhovoru se zákazníkem a vyvracení jeho výroků typu:

— A statistiky sbíráme sami, co tu chceš ještě zkoumat?
"A vy nám předložíte své výsledky, abychom je mohli sladit s našimi statistikami." V této otázce autoři říkají, že by bylo hezké si toto dílo přečíst (3 Jak velká jsou velká data? Zkoumání role velkých dat v oficiálních statistikách)

V této práci autoři položili svou vizi míry rizika. Tento parametr je v závorce, nezaměňovat s odkazem na zdroje.

Druhé pozorování. Autoři používají termín BDS - jde o obdobu konceptu BigData. (zřejmě kývnutí na oficiální statistiky).

Předmluva autorů

Stále větší počet statistických úřadů zkoumá využití zdrojů velkých dat k vytváření oficiálních statistik. V současnosti existuje pouze několik příkladů, kdy byly tyto zdroje plně integrovány do skutečné tvorby statistik. V důsledku toho není dosud znám plný rozsah důsledků způsobených jejich integrací. Mezitím byly učiněny první pokusy analyzovat podmínky a dopad velkých dat na různé aspekty tvorby statistik, jako je kvalita nebo metodologie. Pracovní skupina nedávno vyvinula kvalitativní rámec pro vytváření statistik založených na velkých datech v kontextu projektu velkých dat Evropské hospodářské komise OSN (UNECE). Podle Evropského statistického kodexu je poskytování vysoce kvalitních statistických informací hlavním úkolem statistických úřadů. Protože riziko je definováno jako vliv nejistoty na cíle (např. ISO 31000), zjistili jsme, že je užitečné kategorizovat rizika podle dimenzí kvality, které ovlivňují.
Navržený rámec pro kvalitu statistických dat z velkých datových zdrojů poskytuje strukturovaný pohled na kvalitu spojenou se všemi fázemi statistického obchodního procesu a může tak sloužit jako základ pro komplexní posouzení a řízení rizik spojených s těmito novými datovými zdroji. . Zavádí nové kvalitativní dimenze, které jsou specifické pro použití velkých dat pro oficiální statistiky, jako je institucionální/podnikatelské prostředí nebo složitost, nebo (kdy mají velký význam) použití velkých dat. Pomocí těchto nových kvalitativních měřítek lze systematičtěji identifikovat rizika spojená s používáním velkých zdrojů dat v oficiální statistice.

V tomto příspěvku se snažíme identifikovat rizika, která představuje používání velkých dat v kontextu oficiálních statistik. Systematicky přistupujeme k identifikaci rizik v kontextu navrhovaného rámce kvality. Tím, že se zaměříme na nově navrhované dimenze kvality, můžeme popsat rizika, která v současnosti chybí nebo nemají žádný dopad na tvorbu oficiální statistiky. Zároveň dokážeme identifikovat aktuální rizika, která budou při použití velkých dat pro získávání statistik posuzována zcela jinak. Poté postoupíme dále do cyklu řízení rizik a poskytneme posouzení pravděpodobnosti a dopadu těchto rizik. Vzhledem k tomu, že hodnocení rizik zahrnuje subjektivitu při přiřazování pravděpodobnosti a dopadu různým rizikům, měříme shodu mezi desítkami různých zúčastněných stran, poskytovanou nezávisle. Poté navrhujeme možnosti snížení těchto rizik podle čtyř hlavních kategorií: vyhnout se, snížit, sdílet a zachovat. Podle ISO by jednou z principů řízení rizik měla být tvorba hodnoty, tedy zdroje na snižování rizik by měly být nižší než na nicnedělání. V souladu s tímto principem nakonec posoudíme možný dopad některých opatření ke zmírnění rizik na kvalitu konečných výsledků, abychom dospěli ke komplexnějšímu posouzení využití Big Data pro oficiální statistiky.

1. Úvod

1.1. Pozadí

Vývoj „big data“ charakterizovali Kenneth Neil Cukier a Victor Mayer-Schoenberger ve svém článku „The Rise of Big Data“ (2. www.foreignaffairs.com/articles/139104/kenneth-neil-cukier-and-viktor-mayer-schoenberger/therise-of-big-data) pojmem „přenos dat“. Datafikace je popsána jako proces „převzít všechny aspekty života a přeměnit je na data“. Například. Facebook poskytuje osobní sítě, senzory pro všechny druhy podmínek prostředí, chytré telefony pro osobní komunikaci a pohyb, nositelná data pro osobní prostředí. Výsledkem je téměř všudypřítomný sběr a dostupnost dat.

Stejně jako v mnoha jiných odvětvích se v oficiálních statistikách začalo o problematice velkých dat na strategické úrovni diskutovat teprve nedávno. V rámci skupiny na vysoké úrovni pro modernizaci statistické produkce a služeb zatím neexistuje společné a rozšířené chápání cesty vpřed, ať už jde o výzvu nebo příležitost, malou nebo velkou atd. velkých dat v oficiálních statistikách: www1.unece.org/stat/platform/download/attachments/99484307/Virtual%20Sprint%20Big%20Data%20paper.docx?version=1&modificationDate=1395217470975&api=v2), byla provedena první SWOT analýza následovaná hrubou analýzou rizik a přínosů. Bylo poznamenáno, že „komplexní analýza rizik bude zahrnovat také aspekty, jako je pravděpodobnost a dopad, a může být také rozšířena o identifikaci strategií zmírňování rizik a řízení.“

Přestože tento dokument má stále daleko k úplné analýze rizik, jeho cílem je zlepšit situaci vytvořením prvního strukturovaného přehledu. Rádi bychom zdůraznili, že tento přehled by měl být považován za výchozí bod pro stimulaci obecné diskuse v rámci Oficiální statistické komunity (OSC).

1.2. Koule

Tento článek se zaměřuje výhradně na rizika, nezahrnuje pouze výhody, ale také silné a slabé stránky, příležitosti a hrozby. To znamená, že „rizika opomenutí“ (např. riziko, že OSC bude vynechána ze soutěže, pokud nebude modernizována) nespadají do oblasti působnosti; Je to spíš hrozba. Namísto toho se snažíme upozornit na rizika, která by mohla nastat (a) pokud OSC využije příležitosti, které nabízí velká data, a začne vyvíjet nebo zlepšovat konkrétní „oficiální statistický produkt založený na velkých datech“ (BOSP); b) rizika pro nový „obvyklý provoz“, tj. rizika pro oficiální statistiky založené na vytváření „velkých dat“. (Protože veškerá tvorba oficiálních statistik zahrnuje rizika, omezujeme se na b) rizika specifická pro „velká data“, tj. rizika, která neexistují nebo jsou zanedbatelná pro „tradiční“ proces shromažďování oficiálních statistik.)

1.3. Struktura

V části 2 uvádíme základní principy spojené s tímto úkolem, počínaje jednoznačně nezbytným rámcem pro řízení rizik a řízení rizik (část 2.1). Představujeme také předběžný rámec kvality pro statistiky odvozené z velkých dat (oddíl 2.2), protože propojení rámce kvality s rizikem slouží dvěma účelům:

  • Nastavuje kontext pro identifikaci rizik. Určité ukazatele kvality spolu s uvažovanými charakteristikami vyjadřují hodnoty objektu, které jsou považovány za důležité a rozhodující pro poskytování služeb klientům a uživatelům.
  • To umožňuje přiřadit konkrétní rizika kvalitativním dimenzím, které jsou vnořeny do obecných hyperprostorů a propojeny s konkrétními fázemi procesu produkce statistických produktů.

V částech 3, 4, 5 a 6 představujeme rizika dosud identifikovaná v různých kontextech (4 Dokumenty obchodních případů projektu ESS (https://www.europeansocialsurvey.org/about/structure_and_governance.html) také Big Data as na Big Data ESSnets obsahují seznam rizik částečně souvisejících s projektem a částečně s využitím zdrojů velkých dat pro statistické účely. Dokument „Navrhovaný rámec kvality velkých dat“ zmiňuje některá rizika související s dimenzemi kvality. Dokumenty ESS Big Data Project Business Case, stejně jako ESS Big Data Networks, obsahují seznam rizik spojených částečně s projektem a částečně s využitím zdrojů velkých dat pro statistické účely. Dokument „A Proposed Framework for Big Data Quality “ uvádí některá rizika spojená s indikátory kvality). Zde používáme klasifikaci přístupu k datům, právní prostředí, soukromí a zabezpečení dat a dovednosti; reorganizace podle kvalitativní struktury statistik odvozených z velkých dat (část 2.2) by měla být zvážena, jakmile tato struktura dosáhne úplnějšího stavu. Pro každé z identifikovaných rizik (i) poskytujeme posouzení pravděpodobnosti i dopadu (podle části 2.1.3) a (ii) navrhujeme strategie zmírňování a řízení rizik (viz část 2.1.4).

Nakonec probereme naše zjištění a nastíníme některé další kroky v části 7

2. Základy

2.1. Rizika a řízení rizik

Podle ISO 31000:20095 je riziko definováno jako „vliv nejistoty na stanovené cíle“. To znamená, že cíle musí být definovány nebo známy, než lze identifikovat rizika. Tyto cíle jsou obvykle definovány s ohledem na institucionální kontext příslušné organizace. Dalším důležitým aspektem je, že rizika nesou charakteristiku nejistoty, to znamená, že není jasné, zda k popsané události dojde. Rizika se tedy měří z hlediska pravděpodobnosti výskytu události a jejích důsledků, tedy dopadu, který událost má na dosažení stanovených cílů. Posouzení rizik by mělo poskytovat objektivnější informace, které v konečném důsledku umožní nalézt vhodnou rovnováhu mezi realizací ziskových příležitostí a minimalizací nepříznivých důsledků. Řízení rizik je nedílnou součástí manažerské praxe a důležitým prvkem správné podnikové praxe (6 Statistics Canada: Zpráva o plánech a prioritách 2014–2015, www.statcan.gc.ca/aboutapercu/rpp/2014-2015/s01p06-eng.htm). Je to iterativní proces, který v ideálním případě umožňuje neustálé zlepšování rozhodování a podporuje neustálé zlepšování výkonu.

S kvalitou jsou spojena i rizika. Aplikace systému jakosti by měla umožnit využití příležitostí poskytovaných různými zdroji a metodikami k dosažení výsledku určité úrovně kvality v tom smyslu, aby tento výsledek uspokojoval potřeby uživatelů. Stejně jako rizika mohou být úrovně kvality odvozeny z institucionálního prostředí a účelu určitých institucí. V tomto kontextu institucionální prostředí určuje celkovou úroveň rizika, které je organizace ochotna podstoupit, aby dosáhla svých cílů.

Proces hodnocení a řízení rizik lze rozdělit do různých fází, které zahrnují stanovení kontextu, identifikaci rizik, analýzu rizik z hlediska pravděpodobnosti a dopadu, posouzení rizik a konečné ošetření rizik.

2.1.1. Institucionální kontext

Prvním krokem je stanovení strategického, organizačního a rizikového kontextu, ve kterém se bude odehrávat zbytek procesu. To zahrnuje stanovení kritérií, podle kterých budou rizika posuzována, a definování struktury analýzy.

2.1.2. Identifikace rizika

Ve druhé fázi musí být identifikovány události, které mohou mít dopad na dosažení cílů. Identifikace by měla zahrnovat otázky týkající se typu rizik, načasování události, místa nebo jak mohou události zabránit, zhoršit, zpozdit nebo zlepšit dosažení cílů.

2.1.3. Odhad rizika

Dalším krokem je identifikace stávajících kontrol a analýza rizik z hlediska pravděpodobnosti i potenciálních důsledků. V kontextu tohoto článku se pravděpodobnost nebo pravděpodobnost výskytu rizik používá na stupnici od 1 (nepravděpodobné) do 5 (časté). Dopad výskytu událostí se měří na stupnici od 1 (nevýznamné) do 5 (extrémní). Jak je uvedeno v tabulce 1, součin pravděpodobnosti a dopadu vytváří „úroveň rizika“ v rozmezí od 1 do 25.

Strukturování rizik a rozhodnutí při používání BigData k získání oficiálních statistik

Odhadované úrovně rizika lze porovnat s předem definovanými kritérii, aby se vytvořila rovnováha mezi potenciálními přínosy a nepříznivými výsledky. To umožňuje činit úsudek o prioritách řízení.

Strukturování rizik a rozhodnutí při používání BigData k získání oficiálních statistik

Priorita opatření by měla být dána kritickým rizikům (viz tabulka 2), tj. těm, která pravděpodobně nastanou a budou mít vážné nebo extrémní důsledky pro cíle organizace.

2.1.4. Reakce na riziko

Posledním krokem je rozhodnutí o tom, jak reagovat na rizika. Některá rizika, která jsou pod předem stanovenou úrovní rizika, mohou být ignorována nebo tolerována. U jiných mohou být náklady na řízení rizik tak vysoké, že převažují nad potenciálními přínosy. V tomto případě se organizace může rozhodnout příslušnou činnost upustit. Rizika mohou být také přenesena na třetí strany, např. pojištění, které uhradí vzniklé náklady. Poslední možností je zvážit rizika při určování strategií a akcí, které vyvažují náklady a potenciální přínosy. Organizace se tak rozhodne implementovat strategie k maximalizaci přínosů a minimalizaci potenciálních nákladů.

Strukturování rizik a rozhodnutí při používání BigData k získání oficiálních statistik

2.2. Systémy kvality

Pracovní skupina složená ze zástupců národních a mezinárodních statistických organizací vytvořila v roce 2014 předběžný rámec kvality pro statistiku odvozenou z velkých dat. Pracovní skupina pracovala pod záštitou projektu UNECE/HLG „Úloha velkých dat v modernizaci tvorby statistik“. Rozšířila stávající systémy kvality určené k vyhodnocování statistik odvozených z administrativních zdrojů dat o ukazatele kvality, které byly považovány za relevantní pro velké zdroje dat.

Tento systém rozlišuje tři fáze obchodního procesu: vstup, produktivitu a výstup. Vstupní fáze odpovídá fázím „návrhu“ a „sběru“ GSBP, výkon fázím „proces“ a „analýza“ a výstup je ekvivalentní fázi „šíření“.

Rámec používá hierarchickou strukturu, která byla převzata z administrativní datové struktury vyvinuté Statistics Netherlands (7 Daas, P., S. Ossen, R. Vis-Visschers a J. Arends-Toth, (2009), Checklist for the Quality hodnocení zdrojů administrativních dat, statistika Nizozemsko, Haag/Heerlen). Dimenze kvality jsou vnořeny do hierarchické struktury zvané hyperprostory. Tři definované hyperdimenze jsou „zdroj“, „metadata“ a „data“. Dimenze kvality jsou vnořeny do těchto hyperdimenzí a přiřazeny ke každé z výrobních fází. Pro vstupní fázi byly navrženy další aspekty „soukromí a důvěrnosti“, „složitosti“ (podle struktury dat), „úplnosti“ metadat a „soudržnosti“ (schopnost propojit data s jinými daty). přidat k modelu standardní kvality. Pro každý z indikátorů kvality jsou navrženy faktory relevantní pro jejich popis a také možné indikátory.

Pro účely tohoto článku mohou být z těchto faktorů vyloučena rizika. Faktory, které je třeba vzít v úvahu při měření kvality „institucionálního/podnikatelského prostředí“, jsou například udržitelnost poskytovatele dat. Souvisejícím rizikem může být, že data nebudou od poskytovatele dat v budoucnu dostupná. Další příklad se týká nedávno navrženého aspektu kvality, soukromí a bezpečnosti. Jedním z důležitých faktorů je „vnímání“, které odkazuje na možné negativní vnímání zamýšleného použití konkrétních zdrojů dat různými zainteresovanými stranami.

3. Rizika spojená s přístupem k datům

3.1. Nedostatek přístupu k datům
3.1.1. Popis

Toto riziko spočívá v tom, že vývojový projekt BOSP nemá přístup k požadovanému zdroji velkých dat (BDS).

OSC se nyní tvrdě naučilo, že i dostat se ze startovacích bloků a získat tento přístup je někdy nepřekonatelnou překážkou. Někdy je snadný přístup k určitému zdroji – například k záznamům dat hovorů (CDR) pro účely testování/výzkumu, ale mnohem obtížnější (z právních nebo komerčních důvodů) k nim pro produkční účely.

3.1.2. Pravděpodobnost

Pravděpodobnost závisí do značné míry na vlastnostech BDS. V případě velkých administrativních údajů mohou být až 1, zejména pokud (jako v případě údajů o dopravních smyčkách, které studovali Daas a kol. 8 Daas, P., M. Puts, B. Buelens a P. van den Hurk. 2015. „Velká data jako zdroj pro oficiální statistiku.“ Journal of Official Statistics 31 (2). Pokud je případ BDS soukromý, zejména pokud je citlivý (např. z hlediska ochrany údajů) nebo cenný (z komerčního hlediska), může být pravděpodobnost velmi vysoká (2015).

3.1.3. Vliv

Dopad závisí na BOSP a způsobu použití BDS. Pokud je BDS v samém středu, dopad může být velmi vysoký (4 = nemožné vyrobit BOSP vůbec), zatímco může být nižší, pokud je stále možné vyrobit BOSP (i když s nižší kvalitou) spoléháním se na jiné BDS, což vede k dopadu v rozmezí 2-3.

3.1.4. Prevence

Aby se snížilo riziko nedostatečného přístupu, měly by být navázány předběžné kontakty s poskytovatelem údajů a měla by být uzavřena dlouhodobá dohoda o přístupu k údajům. Kromě toho by měla být provedena komplexní právní analýza týkající se konkrétní kombinace BDS a BOSP. Rovněž by měly být posouzeny možnosti přístupu k údajům prostřednictvím stávajících nebo budoucích právních předpisů.

3.1.5. Zmírnění

Pokud existují alternativní BDS, které lze použít pro BOSP, lze je místo toho prozkoumat. Pokud neexistuje způsob, jak vytvořit BOSP bez BDS, a pokud nelze překonat nedostatek přístupu, je třeba toto úsilí opustit a nový BOSP nespatří světlo světa.

3.2. Ztráta přístupu k datům
3.2.1. Popis

Toto riziko spočívá v tom, že statistický úřad ztratí BDS, která je základem BOSP.

3.2.2. Pravděpodobnost

Pokud se BOSP již vyrábí, obvykle existuje určitá stabilita a v některých případech může být riziko velmi nízké (1). Zejména u soukromých subjektů, se kterými jsou uzavřeny nedostatečně pevné smlouvy, však nic nebrání, např. nové pokyny vyplývající ze změn zásad vykazování údajů, které vedou k mírnému riziku porušení (3). Navíc, pokud je BDS spojeno s nestabilní činností, vždy existuje riziko, že poskytovatel jednoduše zkrachuje a riziko může být ještě vyšší (4).

3.2.3. Vliv

Vzhledem k tomu, že stávající BOSP nemusí být možné vyrobit, často dochází k velmi vysokým dopadům (5). V jiných případech, kdy má BDS doplňkový charakter, může být dopad spíše ztráta kvality s dopadem v rozmezí 2-3.

3.2.4. Prevence

Strategie prevence je podobná strategii bez dat, ale se zvýšeným důrazem na neustálou ostražitost také v produkčním prostředí.

Nedávat všechna svá vejce do jednoho košíku (tj. mít více BDS podkladových pro každý BSOP) může být také strategie, ale může to být buď nepraktické, nebo příliš nákladné.

3.2.5. Zmírnění

Pokud je BDS výsledkem neudržitelné činnosti, možná se postupně stane dostupným nový BDS odrážející stejný společenský fenomén. Jakmile však BSOP klesne, bylo by příliš pozdě začít „skenovat trh“; bude to vyžadovat neustálou ostražitost – a toho může být obtížné dosáhnout.

4. Riziko spojené s právním prostředím

4.1. Nedodržování příslušných právních předpisů
4.1.1. Popis

Toto riziko spočívá v projektu vyvíjejícím BOSP, který nezohledňuje příslušnou legislativu, takže BOSP není v souladu s uvedenou legislativou. To se může týkat právních předpisů na ochranu údajů, nařízení týkajících se zátěže související s odpovědí atd.

4.1.2. Pravděpodobnost

Vzhledem k nedostatečné informovanosti OSC o velkých datech je možné, že může dojít k náhodnému (3) nesouladu. Pravděpodobnost je obecně spojena s BDS, protože čím méně „citlivý“ je zdroj, tím menší je pravděpodobnost výskytu neshody.

4.1.3. Vliv

Dopad je obvykle kritický (4) v tom smyslu, že nevyhovující výroba by vyžadovala zastavení BOSP (nebo, pokud ještě nedosáhla fáze implementace, jeho vývoj by musel být zastaven). To může být dokonce extrémní (5), protože rizika poškození dobré pověsti vyplývající z nevhodných („ilegálních“) oficiálních statistik mohou mít důsledky

4.1.4. Prevence

Jakýkoli BOSP vyžaduje důkladnou právní analýzu – a to se děje v několika fázích (co je přijatelné ve fázi vývoje/průzkumu, nemusí být přijatelné ve fázi implementace/výroby). To zase může vést k tomu, že BOSP bude reverzně navržen tak, aby byl kompatibilní.

4.1.5. Zmírnění

V závislosti na závažnosti nesrovnalosti může být prvním krokem vypnutí BOSP.

Přepracování BOSP tak, aby vyhovoval, může být jednou z možností, ale to, zda se BOSP tímto způsobem „zachrání“, do značné míry závisí na povaze neshody.

4.2. Nepříznivé změny v právním prostředí
4.2.1. Popis

Mohou být zavedeny nové právní předpisy týkající se vyvíjeného BOSP, čímž se fakticky BOSP stane neslučitelným.

4.2.2. Pravděpodobnost

Je možné, že zastánci posílené ochrany dat budou schopni zavést nové požadavky, které přímo či nepřímo ovlivní schopnost vytvářet konkrétní BOSP. Pravděpodobnost v rozmezí 2-3 se zdá být realistickým odhadem.

4.2.3. Vliv

Dopad je obvykle kritický (4) v tom smyslu, že nevyhovující výroba bude vyžadovat vypnutí BOSP.

4.2.4. Prevence

Některé obchodní informace by měly být prováděny pravidelně, aby bylo možné sledovat legislativní vývoj – možná také za účelem jeho ovlivnění tím, že na příslušných (např. poradenských) fórech zdůvodníte oficiální statistiky.

4.2.5. Zmírnění

Za předpokladu, že bylo provedeno proaktivní monitorování, může být čas na přepracování BOSP tak, aby byl v souladu s novou legislativou od prvního dne, kdy vstoupí v platnost.

Pokud naopak k žádnému monitorování nedošlo, takže nová legislativa „překvapí“ – nebo pokud je legislativa tak radikální, že neexistuje způsob, jak učinit BOSP neslučitelným – jedinou možností může být deaktivace BOSP.

5. Rizika související se soukromím a bezpečností dat

5.1. Porušení bezpečnosti dat
5.1.1. Popis

Toto riziko se týká neoprávněného přístupu k údajům statistických úřadů. Třetí strany mohou získat data, na která se vztahuje embargo, například z důvodu plánovaného vydání(9) Pro jakýkoli BOSP, který je zcela založen na jediném BDS, je nevyhnutelné, že data budou implicitně známa původnímu vlastníkovi dat, a pokud bude metodika transparentní, budou známy i odvozené statistiky. Tato situace zde není řešena, ale spíše riziko spojené s nekalým jednáním vlastníků.) (10 Navíc mohou tyto údaje nést riziko porušení důvěrnosti. Toto riziko bude řešeno samostatně.). Mohou to být například údaje, které investoři očekávají na akciovém trhu.

5.1.2. Pravděpodobnost

Pokud jde o technické aspekty ochrany IT prostředí ve statistickém oddělení, je riziko u BDS stejně pravděpodobné jako u tradičních zdrojů. Existují však dva další aspekty, které je třeba vzít v úvahu.

Za prvé, u některých BDS se celkové riziko mírně zvyšuje kvůli skutečnosti, že může být ohrožena bezpečnost dat původního vlastníka. To může souviset například s průmyslovou špionáží nebo hackováním.

Za druhé, jakmile se v kanceláři začnou ukládat potenciálně cenná data, zvyšuje se riziko přilákání nekalých úmyslů. Pokud mají uložená data velmi vysokou obchodní hodnotu, měli byste být připraveni na velmi vysokou pravděpodobnost útoků zacílených na IT infrastrukturu, takže pravděpodobnost narušení může být potenciálně vyšší (4).

Pokud nejsou ukládaná data vnímána jako hodnotná, celková pravděpodobnost se nezdá být příliš vysoká – od (1) do (3) v závislosti na zdroji dat.

5.1.3. Vliv

Potenciální poškození pověsti může být velké (5). V případě BDS je důležité, že pokud dojde k narušení bezpečnosti u původního vlastníka, očekává se, že dopad na reputaci statistického úřadu bude nižší, než kdyby k narušení došlo na datech v jeho správě.

Na druhou stranu je možné, že přestupek ve statistickém úřadu by mohl mít pro původního vlastníka negativní důsledky. V tomto případě je opět možný silný negativní dopad z důvodu poškození z hlediska důvěry mezi dodavatelem a statistickým úřadem (5).

5.1.4. Prevence

Pro případ BDS je specifické, že bezpečnostní postupy původního vlastníka mohou být vhodné. Je nepravděpodobné, že statistické úřady dostanou kontrolní pravomoci, aby to mohly sledovat. Vlastníci, jejichž data se používají k vytváření záznamů s důvěrnými plány zveřejnění, by měli být informováni o dopadu možného narušení bezpečnosti v jejich prostorách na oficiální statistiky a měli by obdržet formální ujištění, že jsou zavedeny vhodné bezpečnostní postupy.

Přímým způsobem, jak zabránit tomu, aby narušení bezpečnosti v prostorách vlastníka mělo vážný dopad na statistický úřad, je zajistit, aby se pro stejný produkt použilo více zdrojů, takže jeden kompromitovaný zdroj k vytvoření konečného čísla nestačí. Výhodou tohoto přístupu je, že větší kontrola je v rukou statistického úřadu.

Způsob, jak předejít negativnímu ovlivnění původního vlastníka dat narušením bezpečnosti statistického úřadu, je najít způsob fungování, který nezahrnuje předávání dat, která jsou z pohledu vlastníka potenciálně citlivá, statistickému úřadu. V syrové formě. Možným preventivním přístupem je použití agregovaných dat. Je však třeba mít na paměti, že některé formy agregace, například ty, které mají zabránit identifikaci jednotlivých členů populace, nemusí být v tomto případě vhodné. Jedním z důvodů může být skutečnost, že riziko pro vlastníka je spojeno s komerční hodnotou dat, která může být významná i po dosažení anonymity.

5.1.5. Zmírnění

V případě narušení údajů vedených statistickým úřadem budou zmírňující opatření stejná jako u klasických zdrojů, pokud nedojde k negativnímu dopadu na původního vlastníka.

V případě negativních důsledků pro původního vlastníka musí statistický úřad přezkoumat a posílit své bezpečnostní postupy a jasně komunikovat a prokázat svůj závazek k tomuto.

Pokud k porušení došlo v prostorách původního vlastníka, měl by příslušný statistický úřad situaci jasně sdělit a trvat na zlepšení bezpečnostních postupů vlastníka. V případě potřeby můžete hledat alternativního dodavatele.

5.2. Porušení ochrany osobních údajů

5.2.1. Popis

Jedná se o riziko, že bude ohroženo soukromí jednoho nebo více jedinců ve statistické populaci. To může být způsobeno útokem na IT infrastrukturu v důsledku tlaku ze strany jiných vládních úřadů nebo kvůli nedostatečné kontrole nad vydáváním statistických dat.

5.2.2. Pravděpodobnost

Stejně jako u rizika úniku dat, ani technické podmínky pro uchovávání mikrodat se přidáním BDS příliš nemění. I zde však existují výhrady.

Mikrodata z určitých zdrojů dat mohou mít vysokou obchodní hodnotu, takže jejich uložení zvýší pravděpodobnost útoků.

Některá mikrodata mohou být navíc potenciálně velmi užitečná pro další vládní agentury, jako jsou orgány činné v trestním řízení, daně nebo zdravotní péče. Za určitých okolností se může dodržování zásady statistické důvěrnosti dostat pod velký tlak.

Pokud jde o nedostatky v kontrole zveřejňování statistických informací, v současnosti již existuje zavedená praxe. BDS může umožňovat vytváření statistik pro malé dílčí skupiny nebo poskytovat možnost propojit agregovaná data z různých BDS, což může zvýšit pravděpodobnost výskytu rizika. Kromě toho však nové zdroje budou vyžadovat nový metodický vývoj, takže skutečným nebezpečím je, že metodika kontroly zveřejňování nebude řádně aktualizována.

Obecně platí, že přiměřenými preventivními opatřeními lze pravděpodobnost udržet na rozumné úrovni, ale protože se jedná o mnoho různých a různorodých faktorů, zdá se, že vhodným posouzením je, že pravděpodobnost je vysoká (4).

5.2.3. Vliv

Potenciální poškození pověsti může být velké (5). Stejně jako u rizika narušení bezpečnosti dat může mít narušení statistického úřadu negativní důsledky pro původního vlastníka. Zde by dopad takové události mohl být potenciálně ještě větší, zvláště pokud budou pokračovat současné trendy ve veřejném mínění. Velmi velké se očekává i poškození vztahu mezi poskytovatelem dat a statistickým úřadem.

5.2.4. Prevence

Jistým způsobem, jak předejít tomuto riziku, je nemít mikrodata z BDS vůbec (ačkoli držení jiných mikrodat stále nese odpovídající riziko, i když s jinou pravděpodobností a dopadem). Tato cesta, stejně jako riziko narušení bezpečnosti údajů, bude zahrnovat potřebu vyvinout jiné způsoby využití údajů pro statistické účely. Rozdílná povaha zdrojů zde navíc bude znamenat, že bude nutné vyvinout nové metodiky s konkurenčními cíli získat co nejvíce užitečných informací a chránit soukromí před nebezpečím.

V případě ukládání mikrodat musí být zabezpečení IT a mechanismy kontroly přístupu na požadované úrovni a neustále monitorovány. Zvláštní pozornost je třeba věnovat zajištění bezpečnosti nových způsobů získávání dat. Je ironií, že tato nová metoda může zahrnovat fyzickou přepravu úložných zařízení (jako jsou pevné disky). Pokud je použita tato metoda, doručení musí být fyzicky zabezpečené a musí být použito šifrování.

5.2.5. Zmírnění

Opatření ke zmírnění jsou zde v podstatě stejná jako v případě narušení bezpečnosti dat. Pokud je důvodem porušení nátlak jiného vládního orgánu, pak je třeba využít příležitosti k posílení nezávislosti managementu, aby se podobná porušení stala v budoucnu ještě obtížnější.

5.3. Manipulace se zdroji dat
5.3.1. Popis

Poskytovatelé dat třetích stran, jako jsou data sociálních médií nebo dobrovolně poskytnutá data, jsou vystaveni riziku manipulace. To může provést buď samotný poskytovatel údajů, nebo třetí strany. Například může být generováno mnoho nepravdivých příspěvků na sociálních sítích, aby se nějakým způsobem posunul statistický index odvozený z těchto dat, pokud je známo, že index je vypočítán z takových dat.

U dobrovolně poskytnutých údajů může nastat případ, že dobrovolníci představují určitou zájmovou skupinu se specifickou agendou.

5.3.2. Pravděpodobnost

U dat, se kterými lze manipulovat tak, aby přinášely větší výhody, je pravděpodobnost vyšší. Mohou to být data, pro která jsou zajímavé statistiky, například akciový trh. Ve světle nedávných skandálů LIBOR a Forex lze předpokládat, že dokud bude pobídka existovat, pokusy o manipulaci s daty budou pravděpodobné.

Pro statistiky založené na dobrovolně poskytnutých datech se stačí podívat na nedávnou PR praxi najímání lidí, kteří předstírají svůj názor a jsou placeni za jeho veřejné vyjádření (například na internetových fórech), abychom dospěli k závěru, že pravděpodobnost není malá. Obecně se zdá, že číslo od 3 do 4 je adekvátní.

5.3.3. Vliv

Velkým problémem manipulace je, že může probíhat dlouhou dobu bez detekce. Pokud manipulace pokračuje dlouhou dobu, může být dopad na kvalitu významný. Poškození důvěry veřejnosti v oficiální statistiky může být navíc také velké, zvláště pokud je veřejně zdůrazňována role statistických úřadů jako poskytovatelů kvalitních dat. Na druhou stranu, pokud jsou manipulace odhaleny včas a poté zveřejněny, může to ve skutečnosti zlepšit vnímání veřejnosti. Až na extrémně špatné případy si lze představit maximální dopad (3).

5.3.4. Prevence

Provádění pravidelných monitorovacích cvičení s alternativními zdroji je jedním z možných preventivních přístupů. Tyto alternativní zdroje mohou být tradiční nebo jiné. Použití statistik založených na kombinaci zdrojů může zabránit významným efektům manipulace. V případech, kdy se obávají manipulace iniciované poskytovatelem, mohou být právní dohody také způsobem, jak takovým praktikám zabránit.

5.3.5. Zmírnění

Pokud jde o poškození vztahů s veřejností, zmírňující opatření, která je zde třeba přijmout, se příliš neliší od opatření pro boj s jakoukoli krizí.

Z hlediska kvality dat by bylo užitečné, kdyby bylo možné opravit minulá data tak, aby i s velkým zpožděním mohla být správná řada
se vyrábí. K tomu může pomoci pravidelné srovnávání. Všimněte si, že cíl benchmarkingu se v tomto případě mírně liší od cíle prevence. Abyste tomu zabránili, je důležité si rychle všimnout a prošetřit podezřelou nesrovnalost mezi benchmarkovými daty a BDS. Pro účely zmírnění jsou vždy užitečná stará užitečná data.

Navíc je třeba dbát na to, aby se podobným manipulacím v budoucnu zabránilo – ve zvláště citlivých případech by to mohlo znamenat získávání potenciálně nadbytečných dat od více dodavatelů pro účely benchmarkingu.

5.4. Nepříznivé veřejné vnímání využívání velkých dat oficiálními statistikami
5.4.1. Popis

Média a široká veřejnost jsou velmi citliví na otázky soukromí a využívání osobních údajů ze zdrojů velkých dat, zejména v kontextu sekundárního využívání dat vládními úřady, které podnikají správní nebo právní kroky proti občanům. Negativně vnímaným využitím by mohlo být určování polohy řízení rychlosti na základě analýzy navigačních dat (11 Viz www.theguardian.com/technology/2011/apr/28/tomtom-satnav-data-police-speed-traps).
Konkrétní případ TomTom Netherlands způsobil výrazný pokles poptávky po zařízeních TomTom a vedl k rozhodnutí společnosti omezit přístup k datům. V tomto konkrétním případě se údaje vztahovaly k jednotlivcům, ale k rychlostním úrovním podle silničních úseků.

Mohou však existovat velké datové aplikace, které jsou veřejností přijímány pozitivně. Jedním z příkladů jsou aplikace, které zabraňují trestným činům, jako je vloupání, pomocí technik velkých dat.

Pozitivní i negativní veřejné mínění může mít silný vliv na používání BDS v kontextu tvorby oficiálních statistik.

Důsledkem negativního vnímání veřejnosti může být, že:

  • BDS již nebude k dispozici statistickým úřadům, ať už z důvodu poskytovatele dat nebo rozhodnutí vlády data nevyužívat, popř
  • použití dat bude omezeno, což může při určitých BOSP narušovat produkci.

5.4.2. Pravděpodobnost

Faktory, které mohou ovlivnit pravděpodobnost takové události nebo její dopad na tvorbu statistik:

  • důvěrnost údajů, tj. jak snadno lze osoby identifikovat;
  • množství informací, které data odhalují například o jednotlivcích, se zvyšuje propojením dat z různých zdrojů;
  • typ údajů, například finanční transakce jsou vnímány jako důvěrnější než ostatní údaje;
  • druh potenciálních opatření, která by mohla být přijata proti občanům, jako je pokutování lidí za překročení rychlosti;
  • nejasné právní prostředí, ve kterém poskytovatelé a uživatelé údajů působí nebo kde jsou právní podmínky v rozporu s veřejnými etickými názory/standardy;
  • míra závislosti na konkrétním zdroji dat pro získání statistiky; ve fázi průzkumu může mít tento faktor menší význam. To však může značně ovlivnit statistiky získané v pozdější fázi, a proto by to mělo být zohledněno i ve fázi průzkumu. Jedním z problémů může být, že konečný rozsah využití dat je zpočátku neznámý, protože zdroje dat by mohly potenciálně sloužit více než jedné statistické oblasti.

Odhadnout načasování nežádoucích událostí není možné, protože mobilizace veřejnosti je často vyvolána pokrytím událostí, které mají negativní dopad na občany. S rostoucím využíváním velkých dat vládami a soukromými podniky a zejména s aktivním marketingem dat pro jiné účely, než které vedly k jejich původnímu sběru, je však pravděpodobnější, že k takovým událostem dojde.

Události, které výrazně ovlivňují vnímání veřejnosti, nejsou časté, ale spíše náhodné (3) a vzdálené (2). S rostoucím využíváním velkých zdrojů dat se bude také zvyšovat pravděpodobnost.

5.4.3. Vliv

Dopad události je velmi závislý na faktorech diskutovaných výše. Obecně platí, že dopad je závažnější pro již zavedenou produkci statistických údajů, protože operace může být přerušena. Dopad také závisí na dostupnosti alternativních zdrojů dat, i když se může stát, že veřejnost nerozlišuje mezi různými zdroji dat, pokud se událost zhmotní. V současném stavu využívání velkých dat se ukazuje, že tyto zdroje nemohou zcela nahradit tradiční zdroje dat, ale spíše doplnit stávající statistiky. Tím se sníží dopad událostí. Proto je dopad události uvažován v rozmezí od 2 (malé) do 3 (velké). Ve fázi výroby se vliv může zvýšit na 4 (kritická hodnota).

5.4.4. Prevence

Preventivní opatření by mohla zahrnovat definování etických zásad pro velká data v oficiálních statistikách. Etické pokyny by měly být založeny na zásadách, jako je kodex evropské statistiky nebo základní zásady oficiální statistiky (12 unstats.un.org/unsd/dnss/gp/fundprinciples.aspx). Dalším krokem bude definování komunikační strategie, která bude zveřejňovat výsledky etických pokynů pro veřejnost a může být použita k informování zainteresovaných stran o etickém použití BDS pro BOSP.

K identifikaci rizik a navržení preventivních nebo zmírňujících opatření na základě etických zásad lze provést samostatné posouzení rizik pro konkrétní BDS. Samostatné posouzení rizik může také zahrnovat zúčastněné strany, jako jsou agentury pro ochranu údajů, aby se zajistilo, že všechna rizika budou identifikována a opatření odůvodněná.

5.4.5. Zmírnění

Komunikační strategie by také měla zahrnovat opatření k řešení rostoucích negativních postojů veřejnosti. Samostatné posouzení rizik by mělo shromáždit pozitivní příklady použití údajů a opatření k prevenci zneužití údajů, která mohou být nutně přijata na úrovni politiky a statistická obec nemusí být schopna účinně ovlivnit.

5.5. Ztráta důvěry – nezískaná pozorováním
5.5.1. Popis

Uživatelé oficiálních statistik mají obvykle vysokou důvěru v přesnost a spolehlivost statistik. To je založeno na skutečnosti, že tvorba statistických údajů je zabudována do spolehlivého a veřejně dostupného metodického rámce a rovněž dokumentace kvality statistického produktu. Navíc většina statistik je založena na pozorováních, tzn. odvozené z průzkumů nebo sčítání lidu, které stanoví snadno srozumitelný vztah mezi pozorováním a statistickými údaji. Používání BDS, které nejsou shromažďovány pro primární účely statistik, představuje riziko, že tyto vztahy budou ztraceny a uživatelé ztratí důvěru v oficiální statistiky. Příkladem souvisejícím s posledním kolem (2010) sčítání lidu je, že v některých zemích byly statistiky získány s použitím více zdrojů a statistických modelů. V řadě případů zúčastněné strany statistiky zpochybnily.

5.5.2. Pravděpodobnost

Pravděpodobnost výskytu rizika závisí na faktorech, jako je složitost statistického/metodologického modelu, platnost vztahu mezi BSD a BOSP nebo konzistence s jinými statistickými údaji. Pravděpodobnost by měla být mezi 3 (náhodná) a 4 (pravděpodobná), což znamená, že se to může stát vícekrát nebo často.

5.5.3. Vliv

Dopad výskytu rizika bude do značné míry záviset na tom, zda NSO mohou úspěšně prokázat přesnost a spolehlivost statistik. V případě, že toho nelze dosáhnout, může dopad ve smyslu ztráty důvěry a důvěry ovlivnit i další statistické oblasti, tedy spolehlivost nejen některých statistik, ale zpochybnit i samotnou organizaci. NSO by ztratily konkurenční výhodu oproti jiným soukromým organizacím působícím v této oblasti.

5.5.4. Prevence

Preventivní akce budou zahrnovat vývoj a publikování vědecky podložené metodologie, která je uznávaná vědeckou komunitou, obohacování dat o metadata kvality, zajištění souladu BOSP s non-BOSP a zavedení přísné kontroly kvality.

Než se přistoupí k tvorbě statistik, mohl by být BOSP zveřejněn jako experiment a zúčastněné strany by byly vyzvány, aby zpochybnily BOSP za účelem ověření nebo zlepšení BOSP.

5.5.5. Zmírnění

Je třeba rozlišovat dva případy. V případě, že jsou statistiky sporné, ale mají vysokou/dostatečnou kvalitu (správné/přesné), postačí statistiky vysvětlit a sdělit veřejnosti poskytnutím snadno srozumitelných příkladů.

6. Rizika spojená s dovednostmi

6.1. Nedostatek specialistů
6.1.1. Popis

Analýza digitálních stop zanechaných lidmi při výkonu jejich činností vyžaduje určité nástroje pro analýzu dat, které v současnosti nejsou v oficiálních statistikách nejběžnější. Za prvé, použití nepřímých údajů o činnostech lidí spíše než přímého dotazování v průzkumech vyžaduje použití statistických modelů, a tedy vyvozování a dovedností strojového učení. Zadruhé, tyto digitální záznamy se skládají z dat, která často nemají obvyklý formát tabulky běžný pro výsledky průzkumu, s řádky odpovídajícími statistické jednotce a sloupci se specifickými charakteristikami těchto statistických jednotek. Digitální stezky jsou také prezentovány ve formě textu, zvuku, obrazu a videa. Získávání relevantních statistických informací z těchto typů dat vyžaduje dovednosti v oblasti zpracování přirozeného jazyka, zpracování zvukových signálů a zpracování obrazu. Zatřetí, tyto zdroje dat mají tendenci poskytovat masivní soubory dat, jejichž zpracování vyžaduje dobré porozumění metodologiím distribuovaných výpočtů.

Riziko nedostatku odborníků je v získávání dat z některého z těchto nových velkých zdrojů dat, protože statistický úřad není schopen je řádně zpracovat a analyzovat, protože jeho pracovníci nemají potřebné dovednosti.

6.1.2. Pravděpodobnost

Pravděpodobnost tohoto rizika bude záviset na třech faktorech: 1) konkrétních typech dovedností požadovaných pro každý typ zdroje velkých dat a pravděpodobnosti, že statistický úřad najde příležitost takový zdroj prostudovat; 2) aktuální dostupnost potřebných dovedností ve statistickém úřadu; a 3) organizační kulturu statistického úřadu.

Pokud jde o typy dovedností, které mohou být požadovány, je třeba poznamenat, že ne všechny zdroje vyžadují všechny výše uvedené dovednosti. Některá (např. data typu Google Trends) nevyžadují distribuované výpočty, protože jsou již předem zpracovány od držitele dat nebo mají dovednosti zpracování signálů a budou primárně vyžadovat dovednosti statistického modelování. Existuje však široká škála zdrojů velkých dat, z nichž většina vyžaduje dovednosti v oblasti distribuovaného počítání, zpracování signálu a strojového učení. Správné prozkoumání těchto digitálních stop bude zároveň vyžadovat zpracování více zdrojů. Existuje tedy vysoká pravděpodobnost, že velké zdroje dat, které budou dostupné statistickým úřadům, budou vyžadovat tyto neobvyklé dovednosti, a pravděpodobnost tohoto rizika je velmi vysoká (5).

Pokud jde o aktuální dostupnost požadovaných dovedností, bude záležet na konkrétním statistickém úřadu. I když je metodika zjišťování méně běžná než metodika zjišťování, ve vybraných oblastech se používá i v oficiální statistice. I když to může vyžadovat určité přerozdělení lidských zdrojů, statistické úřady dokážou najít řešení samy. Pokud jde o dovednosti v oblasti distribuovaných počítačů, zejména související s IT, budou záviset na tom, jak je v organizaci spravována IT infrastruktura. V závislosti na tom, jak je IT oddělení outsourcováno, lze řešení nalézt v kontextu stávajících ujednání. Dovednosti zpracování signálů a strojového učení však ve většině formálních statistických úřadů obecně neexistují a aplikaci těchto dovedností nelze zadat externě, protože musí být aplikovány statistickými odborníky. Proto se z tohoto pohledu jeví pravděpodobnost tohoto rizika také velmi vysoká (5).

Pravděpodobnost tohoto rizika bude ovlivňovat i organizační kultura. Mít zaměstnance ochotné získat potřebné dovednosti prostřednictvím autoškolení může organizaci umožnit reagovat na situaci pomocí nového zdroje dat, který vyžaduje jiné dovednosti než obvykle. To bude záviset na organizační kultuře statistického úřadu, konkrétně na tom, zda povzbuzuje zaměstnance, aby se učili novým dovednostem, a zda zaměstnancům poskytuje čas na samostatné učení.

Pravděpodobnost, že statistický úřad nebude schopen zpracovat a analyzovat nové zdroje dat kvůli nedostatku dovedností svých zaměstnanců, bude tedy mezi pravděpodobnou (4) a pravděpodobnou (5), v závislosti na kultuře učení organizace.

6.1.3. Vliv

Statistický úřad, který není schopen zpracovávat a analyzovat velké zdroje dat kvůli nedostatku dovedností svých zaměstnanců, může mít dva možné negativní důsledky: 1) zdroj dat nebude prozkoumán, alespoň ne úplně; 2) zdroj bude zneužit.

Neschopnost plně prozkoumat potenciál cenného zdroje velkých dat bude mít v krátkodobém horizontu malý dopad (2), protože statistické úřady mají statistické nástroje, aby vyhovovaly současným potřebám. V dlouhodobém horizontu (a možná i ve střednědobém horizontu) však budou důsledky ztráty této příležitosti kritické (4), protože statistické úřady stále více čelí konkurenci ze strany soukromých poskytovatelů, kteří nemají stejnou institucionální strukturu, která by jim umožňovala zaručit veřejnou nezávislost statistických údajů.

Zneužití zdroje však bude mít extrémně negativní důsledky pro statistické úřady, protože oficiální statistiky při plnění svého poslání silně spoléhají na jejich pověst. Můžeme však tvrdit, že nejdůležitější dovedností, která by v případě opomenutí mohla vést k nesprávným výsledkům, je statistická inference, zejména inference založená na modelu, u které je také méně pravděpodobné, že bude chybět. Proto bude očekávaný dopad spíše kritický (4) než extrémní.

6.1.4. Prevence

Statistické úřady mohou tomuto riziku aktivně předcházet dvěma způsoby: 1) školením; a 2) sada.

Statistické úřady mohou vybavit zaměstnance nezbytnými dovednostmi tím, že podrobně popíšou dovednosti potřebné pro použití velkých zdrojů dat při tvorbě statistik, zmapují stávající dovednosti zaměstnanců, určují potřeby školení a poté poskytují školicí kurzy.

Statistické úřady mohou také přijímat nové zaměstnance s požadovanými dovednostmi. Zdá se, že to má vážná omezení, protože statistické úřady nebudou schopny přijmout kritické množství zaměstnanců v situaci, kdy bude využívání zdrojů velkých dat v rámci oddělení rozšířené a novým zaměstnancům bude stále trvat několik let, než budou odpovídat zkušenostem stávajících zaměstnanců. personál. Nicméně alespoň někteří z nových zaměstnanců najatých v rámci rutinní obnovy zaměstnanců mohou mít dovednosti v oblasti velkých dat.

6.1.5. Zmírnění

Tváří v tvář situaci, kdy jsou k dispozici nové zdroje velkých dat bez personálu s potřebnými dovednostmi, mohou statistické úřady zmírnit negativní důsledky dvěma způsoby: 1) subdodávkami; a 2) spolupráce.

Statistické úřady mohou uzavírat smlouvy na zpracování dat a analýzu nových zdrojů velkých dat s jinými organizacemi, které poskytují tyto typy služeb. To se zdá být životaschopným řešením, protože se objevuje nový sektor podniků specializujících se na zpracování tohoto typu dat. Jde však o řešení, které samo o sobě nese určitá rizika, neboť statistický úřad bude mít menší kontrolu nad tvorbou potenciálně citlivých statistických produktů. Toto řešení má také nevýhodu, že neumožňuje pracovníkům statistického úřadu zaučit se a získat potřebné dovednosti.

Jako nadějnější řešení se jeví spolupráce s dalšími organizacemi, které mají zaměstnance s potřebnými dovednostmi a které také mají zájem prozkoumat zdroj velkých dat. Tato spolupráce může mít podobu společných projektů se zaměstnanci statistického úřadu a zaměstnanci z jiných organizací jako sobě rovnými, kteří sdílejí své znalosti. Tím by se nejen snížilo riziko nedostatku dovedností, ale také by se zaměstnancům statistického úřadu umožnilo tyto dovednosti získat.

6.2. Únik odborníků do jiných organizací
6.2.1. Popis

Toto riziko spočívá v tom, že statistické úřady přijdou o své zaměstnance ve prospěch jiných organizací poté, co získají dovednosti v oblasti velkých dat.

6.2.2. Pravděpodobnost

Pravděpodobnost tohoto rizika bude záviset na dvou faktorech: 1) stávající atraktivní příležitosti v organizacích mimo oficiální statistiky; 2) pracovní podmínky ve statistických útvarech.

U příležitostí v organizacích mimo oficiální statistiky se toto riziko jeví jako pravděpodobné (4). Existuje vysoká poptávka po lidech s velkými daty v soukromém sektoru i v dalších organizacích veřejného sektoru. Jakmile získají dovednosti v práci s velkými daty, oficiální statistici budou mít komparativní výhodu jako zkušení statistici. Kromě specifických dovedností v oblasti velkých dat vyžadují jiné organizace datové vědce s tradičnějšími dovednostmi, jako je hodnocení potřeb uživatelů a vývoj klíčových ukazatelů výkonu (KPI), které jsou společné oficiálním statistikům. Navíc se očekává, že zaměstnanci, kteří budou ochotnější získávat nové dovednosti, budou i ti, kteří budou také otevřenější kariérním změnám a odejdou ze statistického úřadu.

Pokud jde o pracovní podmínky ve statistických úřadech, bude to samozřejmě záležet především na konkrétním úřadu. Statistické úřady však obecně stále nabízejí lidem atraktivní pracovní příležitosti z kvantitativního hlediska. Statistické úřady nabízejí největší rozsah možných domén pro práci a největší výběr dat pro práci. Tím se určitým způsobem sníží pravděpodobnost, že statistické úřady přijdou o zaměstnance v důsledku nepředvídaných okolností (3).

6.2.3. Vliv

Dopad tohoto rizika bude stejný jako riziko, že v první řadě nebude mít personál s odpovídajícími dovednostmi. Proto bude dopad kritický (4), jak je uvedeno výše.

6.2.4. Prevence

Zdá se, že jedinou možností, jak statistické úřady tomuto riziku předejít, je zajistit svým zaměstnancům atraktivní pracovní podmínky. To platí obecně pro všechny zaměstnance. Ve specifickém případě, kdy jsou zaměstnanci otevřeni učení se novým dovednostem, konkrétně dovednostem v oblasti velkých dat, lze pracovní podmínky zlepšit tím, že jim poskytneme příležitosti k učení, kde mohou rozvíjet své profesní zájmy. Statistické úřady mohou také věnovat zvláštní pozornost otevřenosti vůči novým inovativním projektům a nápadům souvisejícím s novými zdroji velkých dat pocházejících od statistiků pracujících v různých statistických oblastech. A konečně, zabránění tomu, aby jiné organizace ztrácely zaměstnance v pořadí jejich dovedností v oblasti velkých dat, bude záviset na dobré identifikaci zaměstnanců schopných a ochotných s takovými daty pracovat a na poskytování dobrých příležitostí pro jejich profesní rozvoj.

6.2.5. Zmírnění

Zmírnění tohoto rizika bude provedeno ve vztahu k riziku nedostatku personálu s odpovídajícími dovednostmi: 1) subdodávky; a 2) spolupráce.

7. Diskuse

Z tohoto prvního přehledu je jasné, že pro dané „riziko velkých dat“ není možné stanovit jedinou pravděpodobnost nebo dopad – oba jsou obvykle vysoce závislé na zdroji velkých dat a také „oficiální založené na velkých datech“. statistika."
produkt“.

Dospěli jsme proto k závěru, že logickým dalším krokem v tomto směru je vzít řadu možných pilotních projektů (každý zahrnuje kombinaci jednoho nebo více BDS a jednoho nebo více BDOS) jako výchozí bod a – pro každý takový pilot – přání posoudit pravděpodobnost a dopad každého rizika.

Za tímto účelem jsme na pokraji zahájení průzkumu mezi zúčastněnými stranami, ve kterém chceme OSC vyhodnotit pravděpodobnost, dopad (a možná preventivní/zmírňující opatření) pro řadu možných pilotních projektů – a vyžádat si od OSC informace o rizicích, která jsme nezahrnuli do tento dokument .

8. REFERENCEEHK OSN (2014), „Navrhovaný rámec pro kvalitu velkých dat“, Výstupy týmu UNECE Big Data Quality Task Team, www1.unece.org/stat/platform/download/attachments/108102944/Big%20Dat
a%20Quality%20Framework%20-%20final-%20Jan08-2015.pdf?version=1&modificationDate=1420725063663&api=v2

UNECE (2014), „Jak velká jsou velká data? Zkoumání role velkých dat v oficiálních statistikách“, www1.unece.org/stat/platform/download/attachments/99484307/Virtual%20Sprint%20Big%20Data%20paper.docx?version=1&modificationDate=1395217470975&api=v2

Daas, P., S. Ossen, R. Vis-Visschers a J. Arends-Toth, (2009), Kontrolní seznam pro hodnocení kvality zdrojů administrativních dat, Statistika Nizozemsko, Haag/Heerlen

Dorfman, Mark S. (2007), Introduction to Risk Management (e ed.), Cambridge, UK, Woodhead-Faulkner, str. 18, ISBN 0-85941-332-22)

Eurostat (2014), „Akreditační postup pro statistická data z neoficiálních zdrojů“ v Analýze metodik pro využívání internetu pro sběr informační společnosti a dalších statistik, www.cros-portal.eu/content/analysismethodologies-using-internet-collection-information-society-and-other-statistics-1

Reimsbach-Kounatze, C. (2015), „Rozšíření „velkých dat“ a důsledky pro oficiální statistiky a statistické agentury: Předběžná analýza“, Dokumenty OECD o digitální ekonomice, č. 245, OECD Publishing. dx.doi.org/10.1787/5js7t9wqzvg8-en

Reis, F., Ferreira, P., Perduca, V. (2014) „Využití důkazů o webové aktivitě ke zvýšení časových řad oficiálních statistických ukazatelů“, příspěvek prezentovaný na konferenci IAOS 2014, iaos2014.gso.gov.vn/document/reis1.p1.v1.docx

I když nejsou explicitně zmíněna rizika, tento dokument se ve skutečnosti přibližuje mnoha rizikům spojeným s používáním údajů o webové aktivitě pro oficiální statistiky. Eurostat (2007), Příručka o metodách a nástrojích hodnocení kvality dat, ec.europa.eu/eurostat/documents/64157/4373903/05-Handbook-ondata-quality-assessment-methods-and-tools.pdf/c8bbb146-4d59-4a69-b7c4-218c43952214

Zdroj: www.habr.com

Kupte si spolehlivý hosting pro stránky s DDoS ochranou, VPS VDS servery 🔥 Kupte si spolehlivý webhosting s ochranou DDoS, VPS VDS servery | ProHoster