Dibisyon ng Data. taong 2013. Pagbabalik-tanaw

Sa 2013 taon IBS, na noon ay tila lumilikha Dibisyon ng Data, hiniling sa akin na gumawa ng ganoong braindump (eksklusibong batay sa karanasan ng pakikipag-ugnayan sa mga customer ng langis at gas ng kumpanya) tungkol sa lugar ng problema ng Big Data, at Data sa pangkalahatan. Kaya't nakita ko ito makalipas ang 7 taon at naisip ko na ito ay nakakatawa. Ang ilang mga bagay ay halata. Ang ilan ay lumabas na hindi ganap na totoo, ngunit... 7 taon na ang lumipas.

Sumulat ako sa Ingles at ngayon ay naisipan kong isalin ito sa Russian. Paano kung may bagay pa rin ngayon? (Isasalin ko ang mga bulletin, ngunit iwanan ang mga palatandaan sa Ingles dahil sa katamaran. Ang berde ay mabuti, ang pula ay mapanganib, ang asul ay isang panaginip).

Ipopormal ko ang kaunting mga komento mula sa "ngayon" Italyanoupang ito ay malinaw at nakikilala.

Kaya, DATA! Data para sa amin...

Ang Data Division ay ang Blood Division, dahil ang data ay maikukumpara, halimbawa, sa dugong dumadaloy sa mga ugat at arterya ng isang katawan ng negosyo. Gayunpaman, kahit na ang dugo ay pareho, ang mga organismo ay naiiba at samakatuwid produksyon napakahirap, ngunit ito rin ay kumakatawan sa isang pagkakataon para sa pag-unlad.

May mga tao kung kanino tumalon ang data sa kanilang mga mata - ito ay Kami.
At may mga tao na, sa kasamaang-palad, ay hindi nakikitang blangko ang data point. Ito, muli, sayang, ay atin Mga customer!

Dibisyon ng Data. taong 2013. Pagbabalik-tanaw

Kaya, prinsipyo ng negosyo...

  1. Ibenta negosyoAt hindi IT (nawa'y patawarin ako ng lahat ng mga espesyalista sa IT nang sabay-sabay) dahil nilulutas natin ang mga problema sa mundo, at, mabuti, mas maraming pera.
  2. Ang lahat ng mga problema sa negosyo ay puro sa paligid ng pampakay na mga vertical ng industriya at mangangailangan ng sapat mga espesyalisasyon.
  3. Mga pagtatangkang patunayan halaga ng "data" o, mas mahirap, ang halaga ng "pamamahala ng data" sa isang negosyo ay walang hanggang pagdurusa at sakit. Sa pangkalahatan, ito ay tulad ng pagpunta sa isang tao na maganda ang pakiramdam at nagsasabing: "Dude, gagamutin namin ang iyong dugo ngayon, at, pare, mahal ito!"
  4. Ang aking "wet dream" ay ang magbenta ng "data extraction" at "analytics" sa loob ng SaaS model maliliit at katamtamang negosyona umakyat sa 123 mga serbisyo sa cloud na may mga cool na interface: pamamahala ng proyekto, helpdesk, accounting, CRM, payroll, pag-uulat ng oras, marketing, ... pangalanan mo ito, at inilibing ang kanilang mga sarili sa data. Youcalc at Mga Tagumpay (malamang wala na) Mabuti ito!
  5. Maghanap ng mga taong mahilig mag-tinker "crunch" may data. Ang mga ito ay bihira at kakaiba (tulad ng mga dahon ng tsaa), ngunit susi sa negosyo. Ang isang makata, halimbawa, ay maaaring maging napakahusay sa ugnayan.
  6. Mga inhinyero kailangan! Kailangang gawing mga solusyon ang mga problemang nakuha ng Crunchers mula sa data. At ang tagumpay o kabiguan ng desisyon ay ganap na nakasalalay sa kanila.
  7. pag-unlad opensource ang mga proyekto ay may malaking halaga at ginagawang posible na "magtipon" ng mga kumplikadong solusyon halos mula sa simula.
  8. Ngunit... hindi natin dapat kalimutan na ang Hadoop ay isang aklatan, at ang Lucene ay isang aklatan din, at ang distansya sa pagitan aklatan at produktong pang-industriya magkano!
  9. Ang mga binuo na solusyon ay kailangang maiangkop nang malaki, dahil modularity ΠΈ pagkakaisa - pangunahing puntos.
  10. Maliksi (Diyos patawarin mo ako) ay isang pangunahing pamamaraan sa pakikipag-ugnayan sa customer at pag-verify mga hypotheses, kung saan magkakaroon ng marami.
  11. Lalo na posible at kinakailangan na i-outsource ang lahat ng coding at UI. Lahat ng analytics at pagtutukoy ng negosyo backend kailangan nang umalis sa loob at itinuturing bilang isang pangunahing kakayahan.
  12. Ang mga gumagawa ng desisyon sa negosyo ay dapat palaging "ipaalam" tungkol sa ang pangangailangan upang maayos na gumana sa data at patuloy na naghahanap ng mga bagong paraan upang pag-aralan ang mga ito. Ang kumbinasyon ng mga teknikal at kakayahan sa negosyo ng aming mga empleyado ay makakatulong na itaas ang katayuan ng buong organisasyon sa kabuuan.
  13. Internet – mayroong walang katapusang pinagmumulan ng inspirasyon (wala pang masyadong pusa noon) na may kaugnayan sa mga diskarte sa pamamahala ng data ng enterprise, bagama't ang mga layunin at saklaw ay malaki ang pagkakaiba-iba.

Dibisyon ng Data. taong 2013. Pagbabalik-tanaw

Mga teknolohikal na postulate...

  1. Mayroong malaking potensyal na pag-unlad sa pagpapasimple kung paano ipinapakita ang data sa mga tao. Matatawag mo itong salitang β€œiPhonization”.
  2. Sa kabila ng katotohanang sinasabi ng mga nagtitinda ng BI na sila ay direkta magdala ng analytics sa mga end user, (at tiyak na lumilipat sila sa direksyong ito) - hindi pa naganap ang tagumpay. Hindi lang naiintindihan ng mga tao multidimensional datos.
  3. Isang user interface na kumakatawan sa mas kumplikado, maluwag na structured na data sa faceted form - nagpapakita rin ng walang katapusang bilang ng mga problema. Konklusyon: ang flatter ay mas mabuti.
  4. Ang isang platform na binuo batay sa awtomatikong pagkuha ng data mula sa mga mapagkukunan (na hindi palaging idinisenyo para sa naturang pagkuha) ay lubos na nakadepende sa mga pinagmumulan, ang katatagan ng mga konektor, at ang imprastraktura. Ang platform (messenger) ay palaging sisisihin sa kabiguan na maghatid ng mga resulta. Tiwala – kabisera ng ganitong uri ng mga platform. Capital na mahirap kumita at madaling mawala.
  5. Mula sa pananaw ng negosyo, walang pagkakaiba sa pagitan ng pagsusuri ng Big Data at Data lang. Kadalasan sa likod ng mga numero na kasing simple ng 2x2 ay namamalagi ng milyun-milyong dolyar na halaga ng mga pagkakataon. Ang isang magandang halimbawa ay ang data sa katapusan ng buhay ng mga elemento ng imprastraktura sa Norwegian shelf. Kailan ang lahat ng mga petsa ng mga cap sa hinaharap. Ang pag-aayos ng lahat ng kagamitan ay inilagay sa isang axis at nalaman nila na sa N taon ay darating ang istante ng Armageddon - isang napakayamang lalaki ang tumayo mula sa kanyang upuan at nagmamadaling yumuko palabas ng silid na may mga salitang: β€œPaumanhin, hindi ko magkaroon ng maraming oras, kailangan kong ihanda ang fleet...”
  6. Ang Excel, at mahalagang malinaw at maigsi na tabular na presentasyon ng data, ay may napakalaking kapangyarihan at magandang kinabukasan. Naniniwala ako sa magagandang mesa (at ginagawa pa rin) at iyon na!
  7. Ang pangunahing busog ng lahat ng "analytics" na ito ay automation ng desisyon. There are the greatest opportunities, but also the highest risks, that's why the opportunities are rich, that's why there are risks, that's why may opportunities, that's why they're toffee... πŸ™‚ Well drilling management, halimbawa...
  8. Kung ang "integrability" ay isang pangunahing tampok, ang data ay dapat na de facto na ipakita bilang isang serbisyo. REST mga panuntunan, ngunit hindi natin dapat kalimutan ang tungkol sa pag-optimize pagiging produktibo, na ngayon ay madalas na isinakripisyo para sa integrability habang patuloy na lumalaki ang kapangyarihan ng pag-compute.
  9. Master data - ito ang kailangang i-localize, i-extract, i-standardize bago tugunan ang anumang isyu sa negosyo. Ang master data ay maliit, ngunit ang mga problema dito ay malaki! Tulad ng sinasabi ng mga kapatid ng semantics, 50% ng lahat ng mga problema sa mundo ay dahil tinatawag ng mga tao ang parehong mga bagay sa iba't ibang pangalan, at ang iba pang 50% ay dahil tinatawag nila ang iba't ibang mga bagay sa parehong pangalan.
  10. anumang encapsulation sa antas ng imbakan, nililimitahan nito ang pagiging bukas ng solusyon at humahantong sa SILO-fication. Ito ay mabuti kung ikaw ay isang malaking vendor, kung hindi man ito ay kaya-kaya. (Narito ang pinag-uusapan natin, siyempre, hindi tungkol sa block level at hindi tungkol sa AWS S3, na 6 na taong gulang na noon, ngunit tungkol sa mga file.).
  11. Relational modelling hindi na natin kaibigan ang data. RDF at key-value – cool! Nakakita kami ng mga mahiwagang pagbabago ng mga relational database na may mga modelo ng 2000 na talahanayan sa 15 mga talahanayan, at wala sa mga gumagamit ang nawalan ng anuman.
  12. Gumagana ang Internet dahil umiiral ito URL bilang isang pinag-isang paraan ng pagtugon. Ang kahalagahan ng URL o sa halip URI para sa mga mapagkukunan ng impormasyon ng enterprise ay mahirap na labis na tantiyahin.
  13. Sikat ang text mining at NLP. Sa Internet. Ngunit kahit na sa sektor ng korporasyon, malaking tagumpay ang maaaring makamit sa pamamagitan ng pagkuha ng structured data mula sa unstructured corporate data.
  14. Synergy sa pagitan ng structured data at impormasyong nakuha mula sa unstructured data, i.e. mga file – analytical Klondike.
  15. Kapag kumukuha ng data, huwag kalimutan ang tungkol sa mga karapatan at mga copyright.
  16. Ang kumpanya ng data extraction ay dapat bumuo ng adepartamento ng mga hacker, sa mabuting kahulugan ng salita. May inspirasyon ng pataas na labanan laban sa Yellow Pages crawler bot protection systems.
  17. Bago magtrabaho sa data, kinakailangan na "tingnan" sa kabuuan nito. Mahirap ipaliwanag. Naiisip ang mga pormang tabular. Para sa ilan, ang mga graphical na representasyon, ngunit ang anumang graph ay isa nang interpretasyon. Isang paraan o iba pa... "tingnan"!
  18. Inuulit ang isyu ng "tiwala" ng user sa frontend. Magtiwala sa mga konektor/proseso ng pagbuo ng data, magtiwala sa data, magtiwala sa mga desisyong ginawa.

Pinagmulan: www.habr.com

Magdagdag ng komento