Datadivisjon. år 2013. Retrospektiv

I 2013 år IBS, som da så ut til å skape Datadivisjon, ba meg lage en slik braindump (eksklusivt basert på erfaring fra interaksjon med bedriftens olje- og gasskunder) angående problemområdet Big Data, og Data generelt. Så jeg kom over den 7 år senere og syntes den var morsom. Noen ting er åpenbare. Noen viste seg å ikke være helt sanne, men... 7 år har gått.

Jeg skrev på engelsk og nå tenkte jeg å oversette det til russisk. Hva om noe fortsatt er aktuelt nå? (Jeg vil oversette bulletinene, men la skiltene være på engelsk av latskap. Grønt er bra, rødt er farlig, blått er en drøm).

Jeg vil formalisere de minimale kommentarene fra "i dag" italienskslik at det er tydelig og skillelig.

Så, DATA! Data for oss...

Datadivisjonen er bloddivisjonen, fordi data for eksempel kan sammenlignes med blodet som renner gjennom venene og arteriene til en virksomhet. Men selv om blodet er det samme, er organismene forskjellige og derfor produktisering svært vanskelig, men det representerer også en mulighet for utvikling.

Det er folk som dataene hopper rett inn i øynene deres for - det er disse Vi.
Og det er folk som dessverre ikke ser datapunktet tomt. Dette, igjen, dessverre, er vårt Kunder!

Datadivisjon. år 2013. Retrospektiv

således forretningsprinsipper...

  1. Vi selger virksomhetOg ikke DEN (må alle IT-spesialister tilgi meg med en gang) fordi vi løser verdens problemer, og vel, mer penger.
  2. Alle forretningsproblemer er konsentrert rundt tematiske industrivertikaler og vil kreve tilstrekkelig spesialiseringer.
  3. Forsøk på å bevise verdien av "data" eller, enda vanskeligere, verdien av "datahåndtering" for en bedrift er evig lidelse og smerte. I bunn og grunn er det som å komme til en person som har det bra og si: "Dude, vi skal behandle blodet ditt nå, og dude, det er dyrt!"
  4. Min "våte drøm" er å selge "datautvinning" og "analyse" innenfor SaaS-modellen små og mellomstore bedriftersom klatret inn i 123 skytjenester med kule grensesnitt: prosjektledelse, helpdesk, regnskap, CRM, lønn, tidsrapportering, markedsføring, ... you name it, og begravde seg i dataene. Youcalc og suksessfaktorer (det er sannsynligvis ikke lenger) Dette er bra!
  5. Se etter folk som liker å fikle "knas" med data. De er sjeldne og merkelige (som teblader), men nøkkelen til virksomheten. En poet kan for eksempel være veldig god på korrelasjon.
  6. ingeniører behov for! Trengte problemer som Crunchers trakk fra data til løsninger. Og suksessen eller fiaskoen til avgjørelsen avhenger helt av dem.
  7. utvikling opensource prosjekter er av stor verdi og gjør det mulig å "montere" komplekse løsninger praktisk talt fra bunnen av.
  8. Men... vi må ikke glemme at Hadoop er et bibliotek, og Lucene er også et bibliotek, og avstanden mellom bibliotek og industriprodukt mye!
  9. De bygde løsningene vil måtte tilpasses betydelig, pga modularitet и integrerbarhet - viktige punkter.
  10. smidig (Gud tilgi meg) er en nøkkelteknikk i samhandling med kunden og verifisering hypoteser, som det vil være mange av.
  11. Det er spesielt mulig og nødvendig å sette ut all koding og brukergrensesnitt. All forretningsanalyse og spesifikasjoner baksiden trenger å forlate innenfor og betraktet som en kjernekompetanse.
  12. Bedriftsbeslutningstakere må hele tiden «informeres» om behovet for å jobbe riktig med data og søker stadig etter nye måter å analysere dem på. Kombinasjonen av tekniske og forretningsmessige kompetanser til våre ansatte vil bidra til å heve statusen til hele organisasjonen som helhet.
  13. Internettet – det er en uendelig kilde til inspirasjon (det var ikke så mange katter da) i forhold til tilnærminger til bedriftsdatahåndtering, selv om målene og omfanget varierer betydelig.

Datadivisjon. år 2013. Retrospektiv

Teknologiske postulater...

  1. Det er et stort utviklingspotensiale forenkling hvordan data vises til folk. Du kan kalle dette ordet "iPhonization".
  2. Til tross for at BI-leverandører påstår at de er direkte bringe analyser til sluttbrukere, (og de beveger seg absolutt i denne retningen) - gjennombruddet har ennå ikke skjedd. Folk forstår rett og slett ikke godt flerdimensjonale data.
  3. Et brukergrensesnitt som representerer mer eller mindre komplekse, løst strukturerte data i fasettert form - byr også på et uendelig antall problemer. Konklusjon: jo flatere jo bedre.
  4. En plattform bygget på grunnlag av automatisk datautvinning fra kilder (som ikke alltid er designet for slik utvinning) er vesentlig avhengig av kildene, stabiliteten til koblingene og infrastrukturen. Plattformen (messenger) vil alltid bli klandret for manglende resultater. Tillit – kapital av denne typen plattformer. Kapital som er vanskelig å tjene og lett å tape.
  5. Fra et forretningsmessig synspunkt er det ingen forskjell mellom Big Data-analyse og Bare data. Ofte bak tall så enkle som 2x2 ligger muligheter for millioner av dollar. Et godt eksempel er data om slutten av levetiden til infrastrukturelementer på norsk sokkel. Når er alle datoene for fremtidige landskamper. reparasjoner av alt utstyr ble satt på én akse, og de fant ut at om N år kom hyllen Armageddon - en veldig velstående mann reiste seg fra stolen og bøyde seg raskt ut av rommet med ordene: "Beklager, det gjør jeg ikke har mye tid, jeg må forberede flåten..."
  6. Excel, og i hovedsak en klar og kortfattet tabellpresentasjon av data, har enorm kraft og en stor fremtid. Jeg tror på vakre bord (og gjør det fortsatt) og det er det!
  7. Hovedbuen til all denne "analysen" er beslutningsautomatisering. Det er de største mulighetene, men også de høyeste risikoene, det er derfor mulighetene er rike, det er derfor det er risikoer, det er derfor det er muligheter, det er derfor de er karameller... 🙂 Brønnboringsstyring, for eksempel...
  8. Hvis "integrerbarhet" er en nøkkelfunksjon, bør dataene de facto presenteres som en tjeneste. REST regler, men vi må ikke glemme optimalisering produktivitet, som nå ofte ofres for integrerbarhet ettersom datakraften fortsetter å vokse.
  9. Stamdata - dette er det som må lokaliseres, trekkes ut, standardiseres før man tar opp forretningsproblemer. Masterdata er små, men problemene med dem er store! Som semantikkens brødre sier, er 50 % av alle verdens problemer fordi folk kaller de samme tingene ved forskjellige navn, og de andre 50 % er fordi de kaller forskjellige ting ved samme navn.
  10. noen innkapsling på lagringsnivå begrenser det åpenheten til løsningen og fører til SILO-fikering. Det er bra hvis du er en stor leverandør, ellers er det så som så. (Her snakker vi selvfølgelig ikke om blokknivået og ikke om AWS S3, som allerede var 6 år gammel da, men om filer).
  11. Relasjonsmodellering data er ikke lenger vår venn. RDF og nøkkelverdi – kult! Vi har sett magiske transformasjoner av relasjonsdatabaser med modeller av 2000 tabeller til 15 tabeller, og ingen av brukerne mistet noe.
  12. Internett fungerer fordi det eksisterer URL som en enhetlig metode for adressering. Viktigheten av URL eller rettere sagt URI for bedrifter er informasjonsressurser vanskelig å overvurdere.
  13. Tekstgruvedrift og NLP er populært. På internett. Men selv i bedriftssektoren kan man oppnå stor suksess ved å trekke ut strukturerte data fra ustrukturerte bedriftsdata.
  14. Synergi mellom strukturerte data og informasjon hentet fra ustrukturerte data, dvs. filer – analytisk Klondike.
  15. Når du trekker ut data, ikke glem rettigheter og opphavsrett.
  16. Datautvinningsselskapet skal danne enhackeravdelingen, i ordets gode forstand. Inspirert av oppoverbakkekampen mot Yellow Pages robotsøkerobotbeskyttelsessystemer.
  17. Før du arbeider med data, er det nødvendig å "se" i sin helhet. Det er vanskelig å forklare. Tabellformer kommer til tankene. For noen grafiske representasjoner, men enhver graf er allerede en tolkning. På en eller annen måte... "se"!
  18. Gjentar problemet med brukerens "tillit" i frontend. Tillit til koblinger/datagenereringsprosesser, tillit til data, tillit til beslutninger som tas.

Kilde: www.habr.com

Legg til en kommentar