Gegevensafdeling. jaar 2013. Terugblik

In 2013 jaar IBS, die toen leek te creëren Gegevensafdeling, vroeg mij om zo’n braindump te maken (uitsluitend gebaseerd op ervaringen met interactie met zakelijke olie- en gasklanten) over het probleemgebied van Big Data, en Data in het algemeen. Dus ik kwam het 7 jaar later tegen en vond het grappig. Sommige dingen zijn duidelijk. Sommige bleken niet helemaal waar te zijn, maar... er zijn 7 jaar verstreken.

Ik schreef in het Engels en nu dacht ik eraan het in het Russisch te vertalen. Wat als iets nu nog relevant is? (Ik zal de bulletins vertalen, maar laat de borden uit luiheid in het Engels staan. Groen is goed, rood is gevaarlijk, blauw is een droom).

Ik zal de minimale opmerkingen van “vandaag” formaliseren Italiaanszodat het duidelijk en herkenbaar is.

Dus, DATA! Gegevens voor ons...

De Datadivisie is de Bloeddivisie, omdat data bijvoorbeeld te vergelijken zijn met het bloed dat door de aderen en slagaders van een bedrijfsorganisatie stroomt. Hoewel het bloed hetzelfde is, zijn de organismen echter verschillend productisering erg moeilijk, maar het biedt ook een kans voor ontwikkeling.

Er zijn mensen voor wie de gegevens hen recht in de ogen springen: dat zijn ze Wij.
En er zijn mensen die de data helaas niet blanco zien. Dit is helaas weer van ons Klanten!

Gegevensafdeling. jaar 2013. Terugblik

aldus zakelijke principes...

  1. Verkopen bedrijfEn niet HET (mogen alle IT-specialisten mij meteen vergeven) omdat we de problemen van de wereld oplossen, en, nou ja, meer geld.
  2. Alle bedrijfsproblemen concentreren zich rond thematische verticale sectoren en vereisen adequate oplossingen specialisaties.
  3. Pogingen om te bewijzen waarde van "gegevens" of, nog moeilijker, de waarde van ‘datamanagement’ voor een bedrijf is eeuwig lijden en pijn. Kortom, het is alsof je naar iemand toe gaat die zich goed voelt en zegt: "Kerel, we gaan nu je bloed behandelen, en man, het is duur!"
  4. Mijn ‘natte droom’ is om ‘data-extractie’ en ‘analyses’ te verkopen binnen het SaaS-model kleine en middelgrote bedrijvendie in 123 clouddiensten met coole interfaces klommen: projectmanagement, helpdesk, boekhouding, CRM, loonadministratie, urenregistratie, marketing, ... noem maar op, en zich verdiepten in de data. Youcalc en Succesfactoren (die zijn er waarschijnlijk niet meer) Dit is goed!
  5. Zoek mensen die graag sleutelen “kraken” met gegevens. Ze zijn zeldzaam en vreemd (zoals theebladeren), maar essentieel voor het bedrijfsleven. Een dichter kan bijvoorbeeld heel goed zijn in correlatie.
  6. Ingenieurs nodig zijn! Nodig om problemen die Crunchers uit data haalden om te zetten in oplossingen. En het succes of falen van de beslissing hangt volledig van hen af.
  7. Ontwikkeling opensource projecten is van grote waarde en maakt het mogelijk om complexe oplossingen vrijwel vanaf nul te ‘assembleren’.
  8. Maar... we moeten niet vergeten dat Hadoop een bibliotheek is, en Lucene ook een bibliotheek, en de afstand ertussen bibliotheek en industrieel product veel!
  9. De gebouwde oplossingen zullen immers flink aangepast moeten worden modulariteit и integreerbaarheid - belangrijkste punten.
  10. Weerbaar (God vergeef mij) is een sleuteltechniek in interactie met de klant en verificatie hypothesen, waarvan er veel zullen zijn.
  11. Het is vooral mogelijk en noodzakelijk om alle codering en gebruikersinterface uit te besteden. Alle bedrijfsanalyses en specificaties backend moeten vertrekken внутри en beschouwd als een kerncompetentie.
  12. Zakelijke besluitvormers moeten voortdurend ‘geïnformeerd’ worden de noodzaak om goed met data te werken en voortdurend op zoek naar nieuwe manieren om ze te analyseren. De combinatie van technische en zakelijke competenties van onze medewerkers zal de status van de gehele organisatie als geheel helpen verhogen.
  13. Internet – er is een eindeloze bron van inspiratie (Er waren toen nog niet zoveel katten) met betrekking tot benaderingen van bedrijfsgegevensbeheer, hoewel de doelstellingen en reikwijdte aanzienlijk variëren.

Gegevensafdeling. jaar 2013. Terugblik

Technologische postulaten...

  1. Er zit een enorm ontwikkelingspotentieel in vereenvoudiging hoe gegevens aan mensen worden getoond. Je kunt dit het woord "iPhonization" noemen.
  2. Ondanks het feit dat BI-leveranciers beweren dat ze dat direct zijn breng analyses naar eindgebruikers, (en ze gaan zeker in deze richting) - de doorbraak heeft nog niet plaatsgevonden. Mensen begrijpen het gewoon niet goed multidimensionaal gegevens.
  3. Een gebruikersinterface die min of meer complexe, losjes gestructureerde gegevens vertegenwoordigt gefacetteerd vorm - levert ook een oneindig aantal problemen op. Conclusie: hoe platter hoe beter.
  4. Een platform gebouwd op basis van automatische data-extractie uit bronnen (die niet altijd voor dergelijke extractie zijn ontworpen) is in belangrijke mate afhankelijk van de bronnen, de stabiliteit van de connectoren en de infrastructuur. Het platform (de boodschapper) zal altijd de schuld krijgen van het niet leveren van resultaten. trust – kapitaal van dit soort platforms. Kapitaal dat moeilijk te verdienen en gemakkelijk te verliezen is.
  5. Vanuit zakelijk oogpunt is er geen verschil tussen Big Data-analyse en Gewoon gegevens. Vaak schuilen er achter getallen zo simpel als 2x2 miljoenen dollars aan kansen. Een goed voorbeeld zijn gegevens over het einde van de levensduur van infrastructuurelementen op het Noorse plat. Wanneer zijn alle data van toekomstige caps. reparaties van alle apparatuur werden op één as geplaatst en ze ontdekten dat over N jaar de plank Armageddon eraan kwam - een zeer rijke man stond op van zijn stoel en boog zich haastig de kamer uit met de woorden: “Sorry, dat doe ik niet Ik heb nog veel tijd, ik moet de vloot voorbereiden...”
  6. Excel, en in wezen een duidelijke en beknopte tabellarische presentatie van gegevens, heeft een enorme kracht en een grote toekomst. Ik geloof in mooie tafels (en toch) en dat is het!
  7. De belangrijkste buiging van al deze “analyses” is automatisering van beslissingen. Er zijn de grootste kansen, maar ook de hoogste risico's, daarom zijn de kansen rijk, daarom zijn er risico's, daarom zijn er kansen, daarom zijn ze toffee... 🙂 Beheer van boorputten bijvoorbeeld...
  8. Als ‘integraeerbaarheid’ een belangrijk kenmerk is, moeten de gegevens de facto als een dienst worden gepresenteerd. REST regels, maar we mogen de optimalisatie niet vergeten productiviteit, dat nu vaak wordt opgeofferd voor integreerbaarheid naarmate de rekenkracht blijft groeien.
  9. Stamgegevens - dit is wat moet worden gelokaliseerd, geëxtraheerd en gestandaardiseerd voordat zakelijke problemen worden aangepakt. Masterdata is klein, maar de problemen ermee zijn groot! Zoals de broeders van de semantiek zeggen: 50% van alle problemen in de wereld komt doordat mensen dezelfde dingen met verschillende namen noemen, en de andere 50% omdat ze verschillende dingen met dezelfde naam noemen.
  10. elk inkapseling op opslagniveau beperkt het de openheid van de oplossing en leidt het tot SILO-ficatie. Het is goed als je een grote verkoper bent, anders is het zo-zo. (Hier hebben we het uiteraard niet over het blokniveau en niet over AWS S3, dat toen al 6 jaar oud was, maar over bestanden).
  11. Relationele modellering Gegevens zijn niet langer onze vriend. RDF en sleutelwaarde – cool! We hebben magische transformaties gezien van relationele databases met modellen van 2000 tabellen in 15 tabellen, en geen van de gebruikers heeft iets verloren.
  12. Het internet werkt omdat het bestaat URL als een uniforme aanpak. Het belang van URL of beter gezegd URI voor bedrijfsinformatiebronnen is moeilijk te overschatten.
  13. Textmining en NLP zijn populair. Op internet. Maar zelfs in het bedrijfsleven kan groot succes worden behaald door gestructureerde gegevens uit ongestructureerde bedrijfsgegevens te extraheren.
  14. synergie tussen gestructureerde gegevens en informatie geëxtraheerd uit ongestructureerde gegevens, d.w.z. bestanden – analytische Klondike.
  15. Vergeet bij het extraheren van gegevens de rechten en auteursrechten.
  16. Het data-extractiebedrijf moet eenhackers afdeling, in de goede zin van het woord. Geïnspireerd door de zware strijd tegen crawler-botbeschermingssystemen uit de Gouden Gids.
  17. Voordat u met gegevens gaat werken, is het noodzakelijk om dit te doen "zien" in zijn geheel. Het is moeilijk uit te leggen. Ik denk aan tabelvormen. Voor sommigen zijn het grafische weergaven, maar elke grafiek is al een interpretatie. Op de een of andere manier... "zie"!
  18. Herhaling van het probleem van het ‘vertrouwen’ van gebruikers in de frontend. Vertrouwen in connectoren/datageneratieprocessen, vertrouwen in data, vertrouwen in genomen beslissingen.

Bron: www.habr.com

Voeg een reactie