Odjel podataka. godina 2013. Retrospektiva

U 2013 godine IBS, koji tada kao da je stvarao Odjel podataka, zamolio me da napravim takav braindump (isključivo na temelju iskustva interakcije s korporativnim kupcima nafte i plina) u vezi s problemskim područjem Big Data i podataka općenito. Tako sam naišao na to 7 godina kasnije i mislio sam da je smiješno. Neke stvari su očite. Neke su se pokazale ne baš sasvim istinite, ali... prošlo je 7 godina.

Pisao sam na engleskom i sad sam mislio prevesti na ruski. Što ako je nešto sada još uvijek relevantno? (Biltene ću prevesti, ali natpise na engleskom ostavim iz lijenosti. Zeleno je dobro, crveno je opasno, plavo je san).

Formalizirat ću minimalne komentare od "danas" talijanskitako da bude jasan i razlučiv.

Dakle, PODACI! Podaci za nas...

Odjel za podatke je Odjel za krv, jer se podaci mogu usporediti, na primjer, s krvlju koja teče kroz vene i arterije poslovnog tijela. Međutim, iako je krv ista, organizmi su različiti i stoga produkcija vrlo teško, ali predstavlja i priliku za razvoj.

Postoje ljudi kojima podaci skaču pravo u oči - to su Mi.
A postoje ljudi koji, nažalost, podatke ne vide u prazno. Ovo je, opet, nažalost, naše Kupci!

Odjel podataka. godina 2013. Retrospektiva

Dakle, načela poslovanja...

  1. Prodajemo poslovanjeI ne IT (neka mi svi informatičari odmah oproste) jer rješavamo svjetske probleme, i, eto, više novca.
  2. Svi poslovni problemi koncentrirani su oko tematskih industrijskih vertikala i zahtijevat će odgovarajuće specijalizacije.
  3. Pokušaji dokazivanja vrijednost "podataka" ili, još teže, vrijednost "upravljanja podacima" za poslovanje je vječna patnja i bol. Uglavnom, to je kao da dođete osobi koja se dobro osjeća i kažete: "Stari, sad ćemo ti liječiti krv, a, stari, to je skupo!"
  4. Moj "mokri san" je prodavati "ekstrakciju podataka" i "analitiku" unutar SaaS modela mala i srednja poduzećakoji su se popeli na 123 usluge u oblaku sa cool sučeljima: upravljanje projektima, služba za pomoć, računovodstvo, CRM, obračun plaća, izvješćivanje o radnom vremenu, marketing, ... što god želite, i zakopali se u podatke. Youcalc i Successfactors (vjerojatno ih više nema) Ovo je dobro!
  5. Potražite ljude koji vole petljati "škripanje" s podacima. Oni su rijetki i čudni (poput listića čaja), ali ključni za posao. Pjesnik, na primjer, može biti vrlo dobar u korelaciji.
  6. inženjeri potrebno! Potreban za pretvaranje problema koje je Crunchers izvukao iz podataka u rješenja. A uspjeh ili neuspjeh odluke u potpunosti ovisi o njima.
  7. Razvoj otvoreni izvor projektima ima veliku vrijednost i omogućuje „sklapanje“ složenih rješenja praktički od nule.
  8. Ali... ne smijemo zaboraviti da je Hadoop knjižnica, a Lucene je također knjižnica i udaljenost između knjižnica i industrijski proizvod mnogo!
  9. Izgrađena rješenja morat će se značajno prilagoditi, jer modularnost и integrabilnost - ključne točke.
  10. Agilni (Bože oprosti mi) je ključna tehnika u interakciji s kupcem i provjeri hipoteze, kojih će biti mnogo.
  11. Osobito je moguće i potrebno sve kodiranje i korisničko sučelje prepustiti vanjskim suradnicima. Sve poslovne analitike i specifikacije pozadina treba otići u i smatra se temeljnom kompetencijom.
  12. Donositelji poslovnih odluka moraju biti stalno "informirani". potreba za pravilnim radom s podacima i stalno traženje novih načina za njihovu analizu. Kombinacija tehničkih i poslovnih kompetencija naših zaposlenika pridonijet će podizanju statusa cijele organizacije u cjelini.
  13. Internet – postoji nepresušan izvor inspiracije (tada nije bilo toliko mačaka) u odnosu na pristupe upravljanju podacima poduzeća, iako se ciljevi i opseg značajno razlikuju.

Odjel podataka. godina 2013. Retrospektiva

Tehnološki postulati...

  1. Postoji ogroman razvojni potencijal pojednostavljenje kako se podaci prikazuju ljudima. Ovo možete nazvati riječju "iPhonizacija".
  2. Unatoč činjenici da BI dobavljači tvrde da su izravno donijeti analitiku krajnjim korisnicima, (i sigurno idu u tom smjeru) - do proboja još nije došlo. Ljudi jednostavno ne razumiju dobro višedimenzionalni podaci.
  3. Korisničko sučelje koje predstavlja više ili manje složene, labavo strukturirane podatke fasetiran oblik - također predstavlja beskonačan broj problema. Zaključak: što ravnije to bolje.
  4. Platforma izgrađena na temelju automatskog izvlačenja podataka iz izvora (koji nisu uvijek dizajnirani za takvo izvlačenje) značajno ovisi o izvorima, stabilnosti konektora i infrastrukturi. Platforma (messenger) će uvijek biti kriva za neuspjeh u pružanju rezultata. povjerenje – kapital ovakvih platformi. Kapital koji se teško zarađuje, a lako gubi.
  5. S poslovnog gledišta, nema razlike između Big Data analize i Samo podaci. Često iza jednostavnih brojeva poput 2x2 leže prilike vrijedne milijune dolara. Dobar primjer su podaci o kraju životnog vijeka infrastrukturnih elemenata na norveškom šelfu. Kada su svi datumi budućih kapa. popravci sve opreme stavljeni su na jednu osovinu i saznali su da za N godina dolazi armagedon na policama - jedan vrlo bogat čovjek ustao je sa stolice i žurno se naklonio iz sobe uz riječi: "Oprosti, ja ne imam puno vremena, moram pripremiti flotu..."
  6. Excel, odnosno u biti jasan i koncizan tablični prikaz podataka, ima ogromnu moć i veliku budućnost. Vjerujem u lijepe stolove (i još uvijek čine) i to je to!
  7. Glavni luk sve ove "analitike" je automatizacija odlučivanja. Tu su najveće mogućnosti, ali i najveći rizici, zato su prilike bogate, zato su rizici, zato su mogućnosti, zato su karamele... 🙂 Upravljanje bušenjem bušotina, na primjer...
  8. Ako je "integrabilnost" ključna značajka, onda bi podaci de facto trebali biti predstavljeni kao usluga. OSTALO pravila, ali ne smijemo zaboraviti na optimizaciju produktivnost, koji se sada često žrtvuje zbog integrabilnosti kako računalna snaga nastavlja rasti.
  9. Glavni podaci – to je ono što treba lokalizirati, izdvojiti, standardizirati prije rješavanja bilo kakvih poslovnih problema. Matični podaci su mali, ali problemi s njima su veliki! Kako kažu braća semantičari, 50% svih svjetskih problema je zato što ljudi iste stvari nazivaju različitim imenima, a ostalih 50% je zato što različite stvari nazivaju istim imenom.
  10. Svaki enkapsulacija na razini skladištenja, ograničava otvorenost rješenja i dovodi do SILO-fikacije. Dobro je ako ste veliki prodavač, inače je kako-tako. (Ovdje govorimo, naravno, ne o razini bloka i ne o AWS S3, koji je tada već bio star 6 godina, već o datotekama).
  11. Relacijsko modeliranje podaci nam više nisu prijatelji. RDF i ključ-vrijednost – cool! Vidjeli smo čarobne transformacije relacijskih baza podataka s modelima od 2000 tablica u 15 tablica, a nitko od korisnika ništa nije izgubio.
  12. Internet radi jer postoji URL kao jedinstvena metoda adresiranja. Važnost URL-a ili bolje rečeno URI za informacijske resurse poduzeća teško je precijeniti.
  13. Text mining i NLP su popularni. Na internetu. No čak iu korporativnom sektoru veliki se uspjeh može postići izdvajanjem strukturiranih podataka iz nestrukturiranih korporativnih podataka.
  14. Sinergija između strukturiranih podataka i informacija izdvojenih iz nestrukturiranih podataka, tj. dosjei – analitički Klondike.
  15. Prilikom izdvajanja podataka ne zaboravite na prava i autorska prava.
  16. Tvrtka za izvlačenje podataka mora formirati aodjel za hakere, u dobrom smislu te riječi. Nadahnut teškom borbom protiv zaštitnih sustava robota za indeksiranje Yellow Pages.
  17. Prije rada s podacima potrebno je "vidjeti" u cijelosti. Teško je objasniti. Padaju mi ​​na pamet tablični oblici. Za neke, grafički prikazi, ali svaki grafikon je već interpretacija. Ovako ili onako... “vidjeti”!
  18. Ponavljanje problema korisničkog "povjerenja" u sučelju. Povjerenje u konektore/procese generiranja podataka, povjerenje u podatke, povjerenje u donesene odluke.

Izvor: www.habr.com

Dodajte komentar