Podatkovni oddelek. leto 2013. Retrospektiva

V letu 2013 IBS, ki se je tedaj zdelo, da ustvarja Podatkovni oddelek, me je prosil, naj naredim takšen izračun (izključno na podlagi izkušenj interakcije s korporativnimi strankami nafte in plina) glede problematičnega področja velikih podatkov in podatkov na splošno. Tako sem naletel na to 7 let kasneje in zdelo se mi je smešno. Nekatere stvari so očitne. Nekatere so se izkazale za ne povsem resnične, ampak... Minilo je 7 let.

Pisal sem v angleščini in zdaj sem razmišljal, da bi to prevedel v ruščino. Kaj pa, če je nekaj zdaj še vedno aktualno? (Boltene bom prevedel, napise v angleščini pa pustim zaradi lenobe. Zeleno je dobro, rdeče je nevarno, modro so sanje).

Formaliziral bom minimalne komentarje od "danes" italijanščinatako da je jasno in razločno.

Torej, PODATKI! Podatki za nas...

Oddelek za podatke je oddelek za kri, ker je podatke mogoče primerjati na primer s krvjo, ki teče po žilah in arterijah poslovnega telesa. Vendar, čeprav je kri enaka, so organizmi različni in zato produktizacija zelo težko, predstavlja pa tudi priložnost za razvoj.

So ljudje, ki jim podatki skočijo naravnost v oči – to so Mi.
In obstajajo ljudje, ki na žalost podatkov ne vidijo v celoti. To je spet, žal, naše Stranke!

Podatkovni oddelek. leto 2013. Retrospektiva

Torej, poslovna načela...

  1. Mi prodajamo poselIn ne IT (naj mi vsi IT strokovnjaki takoj oprostijo), ker rešujemo svetovne probleme in, no, več denarja.
  2. Vse poslovne težave so skoncentrirane okoli tematskih industrijskih vertikal in bodo zahtevale ustrezne specializacije.
  3. Poskusi dokazovanja vrednost "podatkov" ali, kar je še težje, vrednost »upravljanja podatkov« za podjetje je večno trpljenje in bolečina. V bistvu je to tako, kot da bi prišel k človeku, ki se počuti dobro, in mu rekel: "Stari, zdaj ti bomo zdravili kri, stari, to je drago!"
  4. Moje "mokre sanje" so prodajati "pridobivanje podatkov" in "analitiko" znotraj modela SaaS mala in srednje velika podjetjaki so zlezli v 123 storitev v oblaku s kul vmesniki: vodenje projektov, služba za pomoč uporabnikom, računovodstvo, CRM, obračun plač, poročanje o delovnem času, trženje, ... in se zakopali v podatke. Youcalc in Successfactors (verjetno jih ni več) To je dobro!
  5. Poiščite ljudi, ki radi klepetajo "škripanje" s podatki. So redki in čudni (kot čajni lističi), a ključni za posel. Pesnik, na primer, je lahko zelo dober v korelaciji.
  6. Inženirji potrebno! Potreben za pretvorbo težav, ki so jih Crunchers potegnili iz podatkov, v rešitve. In uspeh ali neuspeh odločitve je v celoti odvisen od njih.
  7. razvoj opensource projektov ima veliko vrednost in omogoča "sestavljanje" kompleksnih rešitev praktično iz nič.
  8. Ampak ... ne smemo pozabiti, da je Hadoop knjižnica, Lucene je tudi knjižnica in razdalja med knjižnica in industrijski izdelek veliko!
  9. Zgrajene rešitve bo treba bistveno prilagoditi, saj modularnost и integrabilnost - Ključne točke.
  10. Agile (Bog odpusti mi) je ključna tehnika v interakciji s stranko in preverjanju hipoteze, ki jih bo veliko.
  11. Zlasti možno in potrebno je zunanje izvajanje vsega kodiranja in uporabniškega vmesnika. Vsa poslovna analitika in specifikacije backend treba oditi znotraj in velja za ključno kompetenco.
  12. Poslovni odločevalci morajo biti nenehno »obveščeni«. potreba po pravilnem delu s podatki in nenehno išče nove načine za njihovo analizo. Kombinacija tehničnih in poslovnih kompetenc naših zaposlenih bo pripomogla k dvigu statusa celotne organizacije kot celote.
  13. Internet – obstaja neskončen vir navdiha (takrat še ni bilo toliko mačk) v zvezi s pristopi k upravljanju podatkov podjetja, čeprav se cilji in obseg zelo razlikujejo.

Podatkovni oddelek. leto 2013. Retrospektiva

Tehnološki postulati...

  1. Obstaja velik razvojni potencial poenostavitev kako se podatki prikazujejo ljudem. Temu lahko rečete beseda "iPhonizacija".
  2. Kljub temu, da prodajalci BI trdijo, da so neposredno približati analitiko končnim uporabnikom, (in prav gotovo gredo v to smer) - do preboja še ni prišlo. Ljudje preprosto ne razumejo dobro večdimenzionalen podatkov.
  3. Uporabniški vmesnik, ki predstavlja bolj ali manj zapletene, ohlapno strukturirane podatke v fasetiran obliki – prav tako predstavlja neskončno število težav. Zaključek: Bolj ko je ravno, tem bolje.
  4. Platforma, zgrajena na osnovi samodejnega črpanja podatkov iz virov (ki niso vedno zasnovani za takšno črpanje), je bistveno odvisna od virov, stabilnosti konektorjev in infrastrukture. Platforma (messenger) bo vedno kriva za neuspeh pri zagotavljanju rezultatov. Zaupanje – kapital tovrstnih platform. Kapital, ki ga je težko zaslužiti in zlahka izgubiti.
  5. S poslovnega vidika ni razlike med analizo velikih podatkov in Samo podatki. Pogosto se za tako preprostimi številkami, kot je 2x2, skrivajo milijone dolarjev vredne priložnosti. Dober primer so podatki o koncu življenjske dobe infrastrukturnih elementov na norveškem polici. Kdaj so vsi datumi prihodnjih omejitev. popravila vse opreme so postavili na eno os in ugotovili, da se čez N let bliža polični armagedon - en zelo premožen moški je vstal s stola in se naglo priklonil iz sobe z besedami: »Oprostite, ne imam veliko časa, moram pripraviti floto ...«
  6. Excel in v bistvu jasen in jedrnat tabelarični prikaz podatkov ima ogromno moč in veliko prihodnost. Verjamem v lepe mize (in še vedno) in to je to!
  7. Glavni lok vse te "analitike" je avtomatizacija odločanja. Tam so največje priložnosti, a tudi največja tveganja, zato so priložnosti bogate, zato so tveganja, zato so priložnosti, zato so karamele ... 🙂 Upravljanje vrtin, na primer ...
  8. Če je "integrabilnost" ključna lastnost, potem morajo biti podatki de facto predstavljeni kot storitev. REST pravila, ne smemo pa pozabiti na optimizacijo uspešnost, ki je zdaj pogosto žrtvovan zaradi integrabilnosti, saj računalniška moč še naprej raste.
  9. Glavni podatki - to je tisto, kar je treba lokalizirati, ekstrahirati, standardizirati, preden se lotimo kakršnih koli poslovnih vprašanj. Matičnih podatkov je malo, težave z njimi pa velike! Kot pravijo bratje semantike, je 50% vseh svetovnih problemov, ker ljudje imenujejo iste stvari z različnimi imeni, ostalih 50% pa je, ker imenujejo različne stvari z istim imenom.
  10. koli enkapsulacija na ravni skladiščenja omejuje odprtost rešitve in vodi v SILOfikacijo. Dobro je, če si velik prodajalec, sicer je tako, tako. (Tukaj seveda ne govorimo o ravni blokov in ne o AWS S3, ki je bil takrat star že 6 let, ampak o datotekah).
  11. Relacijsko modeliranje podatki niso več naš prijatelj. RDF in ključna vrednost – kul! Videli smo čarobne transformacije relacijskih baz podatkov z modeli 2000 tabel v 15 tabel, pri čemer nihče od uporabnikov ni izgubil ničesar.
  12. Internet deluje, ker obstaja URL kot enoten način naslavljanja. Pomen URL-ja oz URI za podjetniške informacijske vire je težko preceniti.
  13. Rudarjenje besedil in NLP sta priljubljena. V internetu. Toda tudi v podjetniškem sektorju je mogoče doseči velik uspeh z ekstrakcijo strukturiranih podatkov iz nestrukturiranih korporativnih podatkov.
  14. Sinergija med strukturiranimi podatki in informacijami, pridobljenimi iz nestrukturiranih podatkov, tj. datoteke – analitični Klondike.
  15. Pri pridobivanju podatkov ne pozabite na pravice in avtorske pravice.
  16. Podjetje za pridobivanje podatkov mora oblikovati aoddelek za hekerje, v dobrem pomenu besede. Navdihnjen s težkim bojem proti zaščitnim sistemom botov pajkov Yellow Pages.
  17. Pred delom s podatki je potrebno "glej" v celoti. Težko je razložiti. Na misel pridejo tabularne oblike. Za nekatere grafični prikazi, vsak graf pa je že interpretacija. Tako ali drugače ... “see”!
  18. Ponavljamo vprašanje "zaupanja" uporabnika v frontend. Zaupanje v konektorje/postopke generiranja podatkov, zaupanje v podatke, zaupanje v sprejete odločitve.

Vir: www.habr.com

Dodaj komentar