Seo an dara cuid de shraith alt faoi chórais anailíse ().

Sa lá atá inniu ann níl aon amhras ann a thuilleadh gur féidir le próiseáil cúramach sonraí agus léirmhíniú torthaí cabhrú le beagnach aon chineál gnó. I dtaca leis seo, tá córais anailíse ag éirí níos luchtaithe le paraiméadair, agus tá líon na truicear agus imeachtaí úsáideoirí in iarratais ag fás.
Mar gheall air seo, tá cuideachtaí ag tabhairt níos mó agus níos mó faisnéise amh dá n-anailísithe chun anailís a dhéanamh agus chun cinntí fónta a dhéanamh. Níor cheart an tábhacht a bhaineann le córas anailíse do chuideachta a mheas faoina luach, agus ní mór don chóras féin a bheith iontaofa agus cobhsaí.
Anailísí cliant
Is seirbhís í anailísíocht chustaiméirí a nascann cuideachta lena láithreán gréasáin nó lena feidhmchlár tríd an SDK oifigiúil, a chomhtháthaíonn ina bhunachar cód féin agus a roghnaíonn truicear imeachtaí. Tá míbhuntáiste soiléir ag baint leis an gcur chuige seo: ní féidir na sonraí go léir a bhailítear a phróiseáil go díreach mar is mian leat mar gheall ar theorainneacha aon seirbhís a roghnaíonn tú. Mar shampla, ar chóras amháin ní bheidh sé éasca tascanna MapReduce a rith, ar chóras eile ní bheidh tú in ann do mhúnla a rith. Míbhuntáiste eile is ea an bille rialta (mórthaibhseach) le haghaidh seirbhísí.
Tá go leor réitigh anailísíochta custaiméirí ar an margadh, ach bíonn anailísithe luath nó mall ag tabhairt aghaidh ar an bhfíric nach bhfuil aon seirbhís uilíoch amháin ann a oireann do gach tasc (cé go bhfuil praghsanna na seirbhísí seo ar fad ag ardú an t-am ar fad). I gcás den sórt sin, is minic a chinneann cuideachtaí a gcóras anailíse féin a chruthú leis na socruithe agus na cumais saincheaptha go léir is gá.
Anailísí freastalaí
Is seirbhís í anailísíocht ar thaobh an fhreastalaí ar féidir a úsáid laistigh de chuideachta ar a freastalaithe féin agus (go hiondúil) lena cuid iarrachtaí féin. Sa mhúnla seo, stóráiltear gach imeacht úsáideora ar fhreastalaithe inmheánacha, rud a ligeann d'fhorbróirí bunachair shonraí stórála éagsúla a thriail agus an ailtireacht is áisiúla a roghnú. Agus fiú má tá tú fós ag iarraidh anailísíocht cliant tríú páirtí a úsáid le haghaidh roinnt tascanna, beidh sé indéanta fós.
Is féidir anailísíocht ar thaobh an fhreastalaí a úsáid ar dhá bhealach. Ar dtús: roghnaigh roinnt fóntais foinse oscailte, imscaradh ar do mheaisíní iad agus forbair loighic gnó.
Son
CONS
Is féidir leat aon rud is mian leat a shaincheapadh
Is minic a bhíonn sé seo an-deacair agus éilíonn forbróirí ar leith
Ar an dara dul síos: tóg seirbhísí SaaS (Amazon, Google, Azure) in ionad iad a imscaradh tú féin. Déanfaimid labhairt faoi SaaS go mion sa tríú cuid.
Son
CONS
D'fhéadfadh sé a bheith níos saoire ag méideanna meánacha, ach le fás mór beidh sé fós ró-chostasach
Ní bheidh sé indéanta na paraiméadair go léir a rialú
Aistrítear riarachán go hiomlán chuig guaillí an tsoláthraí seirbhíse
Ní fios i gcónaí cad atá taobh istigh den tseirbhís (b’fhéidir nach mbeidh gá leis)
Conas anailísí freastalaí a bhailiú
Más mian linn bogadh ar shiúl ó úsáid a bhaint as anailísíocht cliant agus ár gcuid féin a thógáil, ar an gcéad dul síos ní mór dúinn smaoineamh ar ailtireacht an chórais nua. Anseo thíos inseoidh mé duit céim ar chéim cad is gá duit a mheas, cén fáth a bhfuil gá le gach céim agus cad iad na huirlisí is féidir leat a úsáid.
1. Sonraí a fháil
Díreach mar atá i gcás anailísí custaiméirí, ar an gcéad dul síos, roghnaíonn anailísithe cuideachta na cineálacha imeachtaí ar mian leo staidéar a dhéanamh orthu sa todhchaí agus bailíonn siad iad i liosta. De ghnáth, tarlaíonn na himeachtaí seo in ord ar leith, ar a dtugtar "patrún imeachtaí."
Ansin, samhlaigh go bhfuil úsáideoirí rialta (feistí) agus go leor freastalaithe ag feidhmchlár soghluaiste (láithreán gréasáin). Chun imeachtaí a aistriú go slán ó fheistí go freastalaithe, tá gá le ciseal idirmheánach. Ag brath ar an ailtireacht, d'fhéadfadh go mbeadh roinnt scuainí imeachtaí éagsúla.
- An bhfuil , a úsáidtear mar scuaine le haghaidh imeachtaí a bhailiú.
De réir in 2014, chinn cruthaitheoir Apache Kafka na bogearraí a ainmniú i ndiaidh Franz Kafka mar “córas atá optamaithe le haghaidh scríbhneoireachta” agus toisc go raibh grá aige d’oibreacha Kafka. —
In ár sampla, tá go leor táirgeoirí sonraí agus tomhaltóirí sonraí (feistí agus freastalaithe), agus cuidíonn Kafka iad a nascadh lena chéile. Déanfar cur síos níos mionsonraithe ar thomhaltóirí sna céimeanna seo a leanas, áit a mbeidh siad ina bpríomhábhair. Anois beimid ag smaoineamh ar tháirgeoirí sonraí amháin (imeachtaí).
Cuimsíonn Kafka coincheapa na scuaine agus na críochdheighilte; ). Gan dul isteach i sonraí, déanaimis a shamhlú go seolfar feidhmchlár soghluaiste le haghaidh dhá OSes éagsúla. Ansin cruthaíonn gach leagan a sruth imeachtaí ar leith féin. Cuireann táirgeoirí imeachtaí chuig Kafka, déantar iad a thaifeadadh i scuaine oiriúnach.

(pictiúr )
Ag an am céanna, ceadaíonn Kafka duit léamh i smután agus sruth imeachtaí a phróiseáil i mion-bhaisceanna. Is uirlis an-áisiúil é Kafka a scálaíonn go maith le riachtanais atá ag fás (mar shampla, de réir geolocation imeachtaí).
De ghnáth is leor shard amháin, ach éiríonn rudaí níos casta agus iad ag scálaithe (mar a dhéanann siad i gcónaí). Is dócha nach mbeidh aon duine ag iarraidh ach shard fisiciúil amháin a úsáid i dtáirgeadh, mar go gcaithfidh an ailtireacht a bheith fabhtach. Chomh maith le Kafka, tá réiteach aitheanta eile - RabbitMQ. Níor úsáideamar é i dtáirgeadh mar scuaine le haghaidh anailísíocht imeachtaí (má tá taithí den sórt sin agat, inis dúinn faoi seo sna tuairimí!). Mar sin féin, d'úsáidamar AWS Kinesis.
Sula dtéann tú ar aghaidh go dtí an chéad chéim eile, ní mór dúinn ciseal breise amháin eile den chóras a lua - stóráil logáil amh. Ní ciseal riachtanach é seo, ach beidh sé úsáideach má théann rud éigin mícheart agus na scuainí imeachta i Kafka a athshocrú. Ní gá réiteach casta agus costasach a bheith ann chun logaí amh a stóráil; is féidir leat iad a scríobh áit éigin san ord ceart (fiú ar dhiosca crua).

2. Sruthanna imeachta a phróiseáil
Tar éis dúinn na himeachtaí go léir a ullmhú agus iad a chur sna scuainí cuí, téighimid ar aghaidh go dtí an chéim phróiseála. Anseo inseoidh mé duit faoin dá rogha próiseála is coitianta.
Is é an chéad rogha ná Spark Streaming a chumasú i gcóras Apache. Tá gach táirge Apache beo ar HDFS, córas comhaid slán le macasamhla comhaid. Is uirlis éasca le húsáid é Spark Streaming a láimhseálann sonraí agus scálaí sruthú go maith. Mar sin féin, d'fhéadfadh sé a bheith deacair a choimeád ar bun.
Rogha eile is ea do láimhseálaí imeachtaí féin a thógáil. Chun seo a dhéanamh, ní mór duit, mar shampla, feidhmchlár Python a scríobh, é a thógáil i Docker agus liostáil le scuaine Kafka. Nuair a shroicheann truicear na láimhseálaithe docker, cuirfear tús le próiseáil. Leis an modh seo, ní mór duit feidhmchláir a choinneáil ar siúl i gcónaí.
Glacaimid leis go bhfuil ceann de na roghanna a thuairiscítear thuas roghnaithe againn agus bogadh ar aghaidh chuig an bpróiseáil féin. Ba cheart do phróiseálaithe tosú trí bhailíocht na sonraí a sheiceáil, truflais a scagadh agus teagmhais “briste”. Le haghaidh bailíochtaithe a úsáidimid de ghnáth . Ina dhiaidh sin, is féidir leat mapáil sonraí a dhéanamh: déantar sonraí ó fhoinsí éagsúla a normalú agus a chaighdeánú chun iad a chur le tábla coiteann.

3. Bunachar Sonraí
Is é an tríú céim ná imeachtaí normalaithe a choinneáil. Agus muid ag obair le córas anailíse réamhdhéanta, beidh orainn rochtain a fháil orthu go minic, agus mar sin tá sé tábhachtach bunachar sonraí áisiúil a roghnú.
Má oireann na sonraí go maith i scéim sheasta, is féidir leat a roghnú nó bunachar sonraí eile colún. Ar an mbealach seo oibreoidh na comhiomláin go han-tapa. Is é an míbhuntáiste go bhfuil an scéim socraithe go docht agus dá bhrí sin ní bheidh sé indéanta rudaí treallach a chur leis gan modhnú (mar shampla, nuair a tharlaíonn teagmhas neamhchaighdeánach). Ach is féidir leat a chomhaireamh i ndáiríre go han-tapa.
Le haghaidh sonraí neamhstruchtúrtha, is féidir leat NoSQL a ghlacadh, mar shampla, . Ritheann sé ar HDFS, déanann sé a mhacasamhlú go maith, is féidir leat go leor cásanna a ardú, agus tá sé fabhtach-fhulangach.
Is féidir leat rud éigin níos simplí a ardú freisin, mar shampla, . Tá sé mall go leor agus le haghaidh méideanna beaga. Ach is é an móide go bhfuil sé an-simplí agus dá bhrí sin oiriúnach le haghaidh tosú.

4. Comhiomláin
Tar éis dúinn na himeachtaí go léir a shábháil go cúramach, ba mhaith linn an fhaisnéis thábhachtach go léir a bhailiú ón mbaisc a tháinig isteach agus an bunachar sonraí a nuashonrú. Ar fud an domhain, ba mhaith linn daais agus méadracht ábhartha a fháil. Mar shampla, bailigh próifíl úsáideora ó imeachtaí agus déan iompraíocht a thomhas ar bhealach éigin. Déantar imeachtaí a chomhiomlánú, a bhailiú agus a shábháil arís (i dtáblaí úsáideoirí). Ag an am céanna, is féidir leat córas a thógáil ionas gur féidir leat scagaire a nascadh leis an gcomhordaitheoir-chomhbhailitheoir: bailigh úsáideoirí ó chineál áirithe imeachta amháin.
Ina dhiaidh sin, más rud é nach bhfuil ach anailísíocht ardleibhéil ag teastáil ó dhuine ar an bhfoireann, is féidir córais anailísíochta seachtracha a nascadh. Is féidir leat Mixpanel a ghlacadh arís. ach ós rud é go bhfuil sé costasach go leor, ní sheoltar gach imeacht úsáideora ann, ach amháin an méid is gá. Chun seo a dhéanamh, ní mór dúinn comhordaitheoir a chruthú a aistreoidh roinnt imeachtaí amh nó rud éigin a chomhbhailíomar féin níos luaithe chuig córais sheachtracha, APInna nó ardáin fógraíochta.

5. Aghaidh
Ní mór duit an t-éadanas a nascadh leis an gcóras cruthaithe. Sampla maith is ea an tseirbhís , is GUI bunachar sonraí a chuidíonn le dashboards a thógáil. Conas a oibríonn an idirghníomhaíocht:
- Déanann an t-úsáideoir ceist SQL.
- Mar fhreagra faigheann sé comhartha.
- Cruthaíonn ‘amharcléiriú nua’ dó agus faigheann sé graf álainn ar féidir leat a shábháil duit féin.
Is uath-nuashonrú iad na hamharcléirithe sa tseirbhís, is féidir leat do mhonatóireacht a shaincheapadh agus a rianú. Tá Redash saor in aisce má tá sé féin-óstach, ach mar SaaS cosnóidh sé $50 in aghaidh na míosa.

Conclúid
Tar éis duit na céimeanna go léir thuas a chríochnú, cruthóidh tú do anailísí freastalaí. Tabhair faoi deara le do thoil nach bhfuil sé seo chomh simplí agus díreach anailísí custaiméirí a nascadh, mar ní mór gach rud a chumrú tú féin. Mar sin, sula gcruthaítear do chóras féin, is fiú an gá atá le córas anailíse tromchúiseach a chur i gcomparáid leis na hacmhainní atá tú sásta a leithdháileadh air.
Má tá an mata déanta agat agus go bhfuair tú amach go bhfuil na costais ró-ard, sa chéad chuid eile beidh mé ag caint faoi conas leagan níos saoire den anailísíocht ar thaobh an fhreastalaí a dhéanamh.
Go raibh maith agat as léamh! Beidh áthas orm ceisteanna a chur sna tuairimí.
Foinse: will.com
