Data Division. jier 2013. Retrospektyf

Yn 2013 jier IBS, dy't doe like te meitsjen Data Division, frege my om sa'n braindump te meitsjen (eksklusyf basearre op ûnderfining fan ynteraksje mei bedriuwen fan oalje- en gasklanten) oangeande it probleemgebiet fan Big Data, en Data yn it algemien. Dat ik kaam it 7 jier letter tsjin en tocht dat it grappich wie. Guon dingen binne fanselssprekkend. Guon bliken net hielendal wier te wêzen, mar... 7 jier binne ferrûn.

Ik skreau yn it Ingelsk en no betocht ik it oer te setten yn it Russysk. Wat as der no noch wat relevant is? (Ik sil de bulletins oersette, mar lit de buorden yn it Ingelsk litte út luiheid. Grien is goed, read is gefaarlik, blau is in dream).

Ik sil de minimale opmerkingen fan "hjoed" formalisearje Italiaansksadat it dúdlik en te ûnderskieden is.

Dus, DATA! Gegevens foar ús ...

De Gegevensôfdieling is de Bloeddivyzje, om't gegevens bygelyks fergelike wurde kinne mei it bloed dat troch de ieren en slachieren fan in bedriuwslibben rint. Lykwols, hoewol it bloed itselde is, binne de organismen oars en dêrom produktisaasje hiel lestich, mar it fertsjintwurdiget ek in kâns foar ûntwikkeling.

D'r binne minsken foar wa't de gegevens har rjocht yn 'e eagen springe - dit binne Мы.
En d'r binne minsken dy't, spitigernôch, it gegevenspunt net leech sjogge. Dit, wer, helaas, is fan ús Klanten!

Data Division. jier 2013. Retrospektyf

En sa, saaklike prinsipes ...

  1. Ferkeapje bedriuw, en net IT (mei alle IT-spesjalisten my yn ien kear ferjaan) om't wy de problemen fan 'e wrâld oplosse, en, goed, mear jild.
  2. Alle saaklike problemen binne konsintrearre om tematyske yndustry fertikalen en sil easkje adekwaat spesjalisaasjes.
  3. Besiket te bewizen wearde fan "data" of, noch dreger, de wearde fan "data behear" oan in bedriuw is ivige lijen en pine. Yn prinsipe is it as komme nei in persoan dy't him goed fielt en seit: "Dude, wy sille jo bloed no behannelje, en, dude, it is djoer!"
  4. Myn "wiete dream" is om "data-ekstraksje" en "analytika" te ferkeapjen binnen it SaaS-model lytse en middelgrutte bedriuwendy't klommen yn 123 wolktsjinsten mei koele ynterfaces: projektbehear, helpdesk, boekhâlding, CRM, lean, tiidrapportaazje, marketing, ... neam mar op, en begroeven harsels yn 'e gegevens. Youcalc en súksesfaktoren (binne der wierskynlik net mear) Dit is goed!
  5. Sjoch foar minsken dy't graach tinken "krús" mei gegevens. Se binne seldsum en frjemd (lykas teeblêden), mar kaai foar bedriuw. In dichter kin bygelyks tige goed wêze yn korrelaasje.
  6. Yngenieurs nedich! Need om problemen dy't Crunchers lutsen út gegevens yn oplossingen omsette. En it sukses of mislearjen fan it beslút hinget folslein fan har ôf.
  7. Untwikkeling iepen Boarne projekten is fan grutte wearde en makket it mooglik om komplekse oplossingen praktysk fanôf it begjin te "sammeljen".
  8. Mar... wy moatte net ferjitte dat Hadoop in biblioteek is, en Lucene ek in biblioteek, en de ôfstân tusken biblioteek en yndustrieel produkt folle!
  9. De boude oplossingen sille flink oanpast wurde moatte, want modulariteit и yntegriteit - wichtige punten.
  10. Agile (God ferjou my) is in wichtige technyk yn ynteraksje mei de klant en ferifikaasje hypotezen, dêr't der in protte fan wêze sille.
  11. It is foaral mooglik en needsaaklik om alle kodearring en UI út te besteegjen. Alle saaklike analytics en spesifikaasjes efterkant moatte ferlitte binnen en beskôge as in kearnkompetinsje.
  12. Beslútmakkers moatte konstant "ynformearre" wurde oer de needsaak om goed te wurkjen mei gegevens en hieltyd op syk nei nije manieren om se te analysearjen. De kombinaasje fan technyske en saaklike kompetinsjes fan ús meiwurkers sil helpe om de status fan 'e heule organisaasje as gehiel te ferheegjen.
  13. Ynternet - der is in einleaze boarne fan ynspiraasje (safolle katten wiene der doe net) yn relaasje ta oanpakken foar bedriuwsgegevensbehear, hoewol de doelstellingen en omfang signifikant ferskille.

Data Division. jier 2013. Retrospektyf

Technologyske postulaten ...

  1. D'r is enoarm ûntwikkelingspotinsjeel yn ferienfâldiging hoe't gegevens wurde toand oan minsken. Jo kinne dit it wurd "iPhonization" neame.
  2. Nettsjinsteande it feit dat BI-leveransiers beweare dat se direkt binne bring analytics oan ein brûkers, (en se bewege grif yn dizze rjochting) - de trochbraak is noch net bard. Minsken begripe gewoan net goed multidimensional data.
  3. In brûkersynterface dy't mear of minder komplekse, los strukturearre gegevens yn fasetten foarm - ek presintearret in einleaze oantal problemen. Konklúzje: hoe platter hoe better.
  4. In platfoarm boud op basis fan automatyske gegevenswinning út boarnen (dy't net altyd ûntwurpen binne foar sa'n ekstraksje) is signifikant ôfhinklik fan 'e boarnen, de stabiliteit fan 'e ferbiningen en de ynfrastruktuer. It platfoarm (messenger) sil altyd de skuld krije foar it mislearjen fan resultaten. It fertrouwen - haadstêd fan dit soarte fan platfoarms. Haadstêd dat is dreech te fertsjinjen en maklik te ferliezen.
  5. Ut in saaklik eachpunt, der is gjin ferskil tusken Big Data analyze en Just Data. Faak efter nûmers sa ienfâldich as 2x2 lizze kânsen foar miljoenen dollars. In goed foarbyld is gegevens oer it ein fan it libben fan ynfrastruktuer eleminten op it Noarske plat. Wannear binne alle datums fan takomstige kappen. reparaasjes fan alle apparatuer waarden op ien as set en se fûnen út dat yn N jier de plank Armageddon kaam - ien tige begoedige man kaam oerein fan syn stoel en bûgde hastich de keamer út mei de wurden: "Sorry, ik net haw in protte tiid, ik moat de float tariede ..."
  6. Excel, en yn wêzen in dúdlike en bondige tabelpresintaasje fan gegevens, hat enoarme krêft en in grutte takomst. Ik leau yn moaie tabellen (en noch altyd dwaan) en dat is it!
  7. De wichtichste bôge fan al dizze "analytika" is beslút automatisearring. Der binne de grutste kânsen, mar ek de heechste risiko's, dêrom binne de kânsen ryk, dêrom binne der risiko's, dêrom binne der kânsen, dêrom binne se toffee ... 🙂 Well boarjen behear, bygelyks ...
  8. As "yntegriteit" in kaaifunksje is, dan moatte de gegevens de facto wurde presintearre as in tsjinst. RÊST regels, mar wy moatte net ferjitte oer optimalisaasje produktiviteit, dy't no faak opoffere wurdt foar yntegrearberens, om't kompjûterkrêft trochgiet te groeien.
  9. Master data - dit is wat moat wurde lokalisearre, ekstrahearre, standerdisearre foardat jo saaklike problemen oanpakke. Master data is lyts, mar problemen mei it binne grut! Lykas de bruorren fan de semantyk sizze, binne 50% fan alle problemen fan 'e wrâld om't minsken deselde dingen mei ferskate nammen neame, en de oare 50% binne om't se ferskate dingen mei deselde namme neame.
  10. Any ynkapseling op it opslachnivo beheint it de iepenheid fan 'e oplossing en liedt ta SILO-fikaasje. It is goed as jo in grutte ferkeaper binne, oars is it sa-sa. (Hjir ha wy it fansels net oer it bloknivo en net oer AWS S3, dat doe al 6 jier âld wie, mar oer triemmen).
  11. Relaasjemodeling data is net mear ús freon. RDF en kaai-wearde - cool! Wy hawwe sjoen magyske transformaasjes fan relational databases mei modellen fan 2000 tabellen yn 15 tabellen, en net ien fan de brûkers ferlear neat.
  12. It ynternet wurket om't it bestiet URL as in unifoarme metoade fan oanpak. It belang fan URL of leaver URI foar ûndernimming ynformaasje middels is dreech te overestimate.
  13. Tekstmining en NLP binne populêr. Yn it ynternet. Mar sels yn 'e bedriuwssektor kin grut súkses berikt wurde troch strukturearre gegevens te ekstrahearjen fan net-strukturearre bedriuwsgegevens.
  14. Synergy tusken strukturearre gegevens en ynformaasje helle út ûnstrukturearre gegevens, d.w.s. triemmen - analytysk Klondike.
  15. By it útheljen fan gegevens, ferjit net oer rjochten en auteursrjochten.
  16. It data-ekstraksjebedriuw moat foarmje inhackers ôfdieling, yn 'e goede sin fan it wurd. Ynspirearre troch de opwaartse striid tsjin Yellow Pages crawler bot beskermingssystemen.
  17. Foardat wurkje mei gegevens, is it nedich om "sjen" yn syn gehiel. It is dreech te ferklearjen. Tafelfoarmen komme yn 't sin. Foar guon, grafyske foarstellings, mar eltse grafyk is al in ynterpretaasje. Op ien of oare manier... "sjoch"!
  18. It probleem fan brûker "fertrouwen" werhelje yn 'e frontend. Fertrouwen yn ferbiners / gegevensgeneraasjeprosessen, fertrouwen yn gegevens, fertrouwen yn besluten makke.

Boarne: www.habr.com

Add a comment