Data Division. godina 2013. Retrospektiva

U 2013 godina IBS, koje je tada izgledalo kao da stvara Data Division, zamolio me da napravim takav braindump (isključivo zasnovan na iskustvu interakcije s korporativnim kupcima nafte i plina) u vezi s problematikom velikih podataka i podataka općenito. Tako sam naišao 7 godina kasnije i pomislio da je smiješno. Neke stvari su očigledne. Ispostavilo se da neki nisu sasvim tačni, ali... prošlo je 7 godina.

Pisao sam na engleskom i sad sam razmišljao da to prevedem na ruski. Šta ako je nešto i sada aktuelno? (Ja ću prevesti biltene, ali ostavite natpise na engleskom iz lijenosti. Zeleno je dobro, crveno je opasno, plavo je san).

Ozvaničiću minimalne komentare od "danas" talijanskitako da bude jasan i prepoznatljiv.

Dakle, PODACI! Podaci za nas...

Odjel podataka je odjel za krv, jer se podaci mogu uporediti, na primjer, sa krvlju koja teče kroz vene i arterije poslovnog tijela. Međutim, iako je krv ista, organizmi su različiti i samim tim produkcija veoma teško, ali predstavlja i priliku za razvoj.

Ima ljudi kojima podaci skaču pravo u oči - to su Mi.
A ima i ljudi koji, nažalost, ne vide podatke prazne. Ovo je, opet, avaj, naše Kupci!

Data Division. godina 2013. Retrospektiva

Tako principi poslovanja...

  1. Mi prodajemo posao, a ne IT (neka mi svi informatičari oproste odjednom) jer rješavamo svjetske probleme i, eto, više novca.
  2. Svi poslovni problemi su koncentrisani oko tematskih industrijskih vertikala i zahtevaće adekvatne specijalizacije.
  3. Pokušaji dokaza vrijednost "podataka" ili, što je još teže, vrijednost “upravljanja podacima” za posao je vječna patnja i bol. U suštini, to je kao da dođete osobi koja se dobro osjeća i kažete: „Čovječe, sad ćemo ti liječiti krv, a čovječe, to je skupo!“
  4. Moj "mokri san" je da prodajem "izvlačenje podataka" i "analitiku" u okviru SaaS modela mala i srednja preduzećakoji su se popeli na 123 cloud servisa sa cool interfejsima: upravljanje projektima, helpdesk, računovodstvo, CRM, obračun plaća, izvještavanje o radnom vremenu, marketing,... kako to kažete, i zakopali se u podatke. Youcalc i Successfactors (vjerovatno ih više nema) Ovo je dobro!
  5. Potražite ljude koji vole da petljaju "krckanje" sa podacima. Oni su rijetki i čudni (kao listovi čaja), ali ključni za posao. Pesnik, na primer, može biti veoma dobar u korelaciji.
  6. Inženjeri potrebno! Potreban za pretvaranje problema koje je Crunchers izvukao iz podataka u rješenja. A uspjeh ili neuspjeh odluke u potpunosti ovisi o njima.
  7. Razvoj opensource projekti su od velike vrijednosti i omogućavaju „sastavljanje“ složenih rješenja praktično od nule.
  8. Ali... ne smijemo zaboraviti da je Hadoop biblioteka, a Lucene je također biblioteka, i udaljenost između njih biblioteka i industrijski proizvod mnogo!
  9. Izgrađena rješenja će se morati značajno prilagoditi, jer modularnost и integrabilnost - ključne točke.
  10. okretan (Bože oprosti mi) je ključna tehnika u interakciji s kupcem i verifikaciji hipoteze, kojih će biti mnogo.
  11. Naročito je moguće i neophodno prepustiti svo kodiranje i korisničko sučelje. Sva poslovna analitika i specifikacije backend treba da odem unutar i smatra se ključnom kompetencijom.
  12. Donosioci poslovnih odluka moraju biti stalno „informisani“. potreba za pravilnim radom sa podacima i stalno traže nove načine da ih analiziraju. Kombinacija tehničkih i poslovnih kompetencija naših zaposlenih pomoći će podizanju statusa cijele organizacije u cjelini.
  13. Internet – postoji beskrajan izvor inspiracije (tada nije bilo toliko mačaka) u odnosu na pristupe upravljanju podacima preduzeća, iako se ciljevi i obim značajno razlikuju.

Data Division. godina 2013. Retrospektiva

Tehnološki postulati...

  1. Postoji ogroman razvojni potencijal pojednostavljenje kako se podaci prikazuju ljudima. Ovo možete nazvati riječju “iPhonizacija”.
  2. Uprkos činjenici da BI dobavljači tvrde da jesu direktno donijeti analitiku do krajnjih korisnika, (a sigurno se kreću u tom smjeru) - do proboja još nije došlo. Ljudi jednostavno ne razumiju dobro multidimenzionalni podataka.
  3. Korisničko sučelje koje predstavlja manje ili više složene, labavo strukturirane podatke faceted forma - takođe predstavlja beskrajan broj problema. Zaključak: što ravnije to bolje.
  4. Platforma izgrađena na bazi automatskog izvlačenja podataka iz izvora (koji nisu uvijek dizajnirani za takvo izvlačenje) značajno ovisi o izvorima, stabilnosti konektora i infrastrukture. Platforma (messenger) će uvijek biti kriva za neuspjeh u isporuci rezultata. Poverenje – kapital ove vrste platformi. Kapital koji je teško zaraditi i lako izgubiti.
  5. Sa poslovne tačke gledišta, nema razlike između analize velikih podataka i Just Data. Često iza jednostavnih brojeva kao 2x2 kriju se milioni dolara vrijedne prilike. Dobar primjer su podaci o prestanku vijeka trajanja infrastrukturnih elemenata na norveškom šelfu. Kada su svi datumi budućih kapica. popravke sve opreme su stavljene na jednu osovinu i saznali su da za N godina dolazi polica Armagedon - jedan veoma imućan čovjek je ustao sa stolice i žurno se naklonio iz sobe sa riječima: „Izvinite, neću imam mnogo vremena, moram da pripremim flotu...”
  6. Excel, a u suštini jasan i koncizan tabelarni prikaz podataka, ima ogromnu moć i veliku budućnost. Verujem u lepe stolove (i dalje radim) i to je to!
  7. Glavni luk sve ove "analitike" je automatizacija odlučivanja. Postoje najveće mogućnosti, ali i najveći rizici, zato su mogućnosti bogate, zato postoje rizici, zato postoje mogućnosti, zato su toffee... 🙂 Pa upravljanje bušenjem, na primjer...
  8. Ako je “integrabilnost” ključna karakteristika, onda bi podaci de facto trebali biti predstavljeni kao usluga. REST pravila, ali ne smijemo zaboraviti na optimizaciju produktivnost, koji se sada često žrtvuje zbog integrabilnosti kako računarska snaga nastavlja da raste.
  9. Glavni podaci - to je ono što treba lokalizirati, izdvojiti, standardizirati prije rješavanja bilo kakvih poslovnih problema. Glavni podaci su mali, ali problemi s njima su veliki! Kako kažu braća semantičari, 50% svih svjetskih problema je zato što ljudi iste stvari zovu različitim imenima, a ostalih 50% zato što različite stvari zovu istim imenom.
  10. Svako inkapsulacija na nivou skladištenja, ograničava otvorenost rješenja i dovodi do SILO-fikacije. Dobro je ako ste veliki prodavac, inače je tako-tako. (Ovdje, naravno, ne govorimo o nivou bloka i ne o AWS S3, koji je tada već imao 6 godina, već o fajlovima).
  11. Relaciono modeliranje podaci više nisu naš prijatelj. RDF i ključ/vrijednost – super! Videli smo magične transformacije relacionih baza podataka sa modelima od 2000 tabela u 15 tabela, a niko od korisnika nije izgubio ništa.
  12. Internet radi jer postoji URL kao jedinstveni metod adresiranja. Važnost URL-a ili bolje rečeno URI za informacione resurse preduzeća je teško precijeniti.
  13. Text mining i NLP su popularni. Na Internetu. Ali čak iu korporativnom sektoru, veliki uspjeh se može postići izdvajanjem strukturiranih podataka iz nestrukturiranih korporativnih podataka.
  14. Sinergija između strukturiranih podataka i informacija izdvojenih iz nestrukturiranih podataka, tj. fajlovi – analitički Klondike.
  15. Prilikom izdvajanja podataka ne zaboravite na prava i autorska prava.
  16. Kompanija za ekstrakciju podataka mora formirati aodjel za hakere, u dobrom smislu te riječi. Inspirisan teškom borbom protiv sistema zaštite od robota za indeksiranje Yellow Pages.
  17. Prije rada sa podacima potrebno je "vidi" u cijelosti. Teško je to objasniti. Padaju mi ​​na pamet tabelarni oblici. Za neke, grafički prikazi, ali svaki graf je već interpretacija. Na ovaj ili onaj način... “vidi”!
  18. Ponavljanje pitanja „povjerenja“ korisnika u frontend. Poverenje u konektore/procese generisanja podataka, poverenje u podatke, poverenje u donete odluke.

izvor: www.habr.com

Dodajte komentar