Córais anailíse freastalaí

Это вторая часть цикла статей об аналитических системах (nasc chuig cuid 1).

Córais anailíse freastalaí

Сегодня уже не вызывает сомнений, что аккуратная обработка данных и интерпретация результатов могут помочь практически любому виду бизнеса. В связи с этим аналитические системы становятся все более нагруженными параметрами, растет количество триггеров и пользовательских ивентов в приложениях.
Из-за этого компании отдают своим аналитикам все больше и больше «сырой» информации для анализа и превращения ее в правильные решения. Важность системы аналитики для компании не должна быть недооцененной, а сама система должна быть надежной и устойчивой.

Anailísí cliant

Клиентская аналитика — это сервис, который компания подключает для своего веб-сайта или приложения через официальное SDK, интегрирует в собственную кодбазу и выбирает ивенты-триггеры. У такого подхода есть очевидный недостаток: все собранные данные не могут быть обработаны в полной мере так, как вы хотели бы, из-за ограничений любого выбранного сервиса. Например, в одной системе будет нелегко запустить MapReduce задачи, в другой вы не сможете запустить свою модель. Еще одним минусом будет регулярный (внушительный) счет за услуги.
На рынке представлено много решений клиентской аналитики, но, рано или поздно аналитики сталкиваются с тем, что нет одного универсального сервиса, подходящего для любой задачи (тогда как цены на все эти сервисы все время растут). В такой ситуации компании нередко решают создать свою собственную систему аналитики со всеми нужными кастомными настройками и возможностями.

Anailísí freastalaí

Is seirbhís í anailísíocht ar thaobh an fhreastalaí ar féidir a úsáid laistigh de chuideachta ar a freastalaithe féin agus (go hiondúil) lena cuid iarrachtaí féin. Sa mhúnla seo, stóráiltear gach imeacht úsáideora ar fhreastalaithe inmheánacha, rud a ligeann d'fhorbróirí bunachair shonraí stórála éagsúla a thriail agus an ailtireacht is áisiúla a roghnú. Agus fiú má tá tú fós ag iarraidh anailísíocht cliant tríú páirtí a úsáid le haghaidh roinnt tascanna, beidh sé indéanta fós.
Is féidir anailísíocht ar thaobh an fhreastalaí a úsáid ar dhá bhealach. Ar dtús: roghnaigh roinnt fóntais foinse oscailte, imscaradh ar do mheaisíní iad agus forbair loighic gnó.

Son
CONS

Is féidir leat aon rud is mian leat a shaincheapadh
Is minic a bhíonn sé seo an-deacair agus éilíonn forbróirí ar leith

Ar an dara dul síos: tóg seirbhísí SaaS (Amazon, Google, Azure) in ionad iad a imscaradh tú féin. Déanfaimid labhairt faoi SaaS go mion sa tríú cuid.

Son
CONS

D'fhéadfadh sé a bheith níos saoire ag méideanna meánacha, ach le fás mór beidh sé fós ró-chostasach
Ní bheidh sé indéanta na paraiméadair go léir a rialú

Aistrítear riarachán go hiomlán chuig guaillí an tsoláthraí seirbhíse
Не всегда известно, что внутри сервиса (может и не понадобиться)

Conas anailísí freastalaí a bhailiú

Más mian linn bogadh ar shiúl ó úsáid a bhaint as anailísíocht cliant agus ár gcuid féin a thógáil, ar an gcéad dul síos ní mór dúinn smaoineamh ar ailtireacht an chórais nua. Anseo thíos inseoidh mé duit céim ar chéim cad is gá duit a mheas, cén fáth a bhfuil gá le gach céim agus cad iad na huirlisí is féidir leat a úsáid.

1. Sonraí a fháil

Díreach mar atá i gcás anailísí custaiméirí, ar an gcéad dul síos, roghnaíonn anailísithe cuideachta na cineálacha imeachtaí ar mian leo staidéar a dhéanamh orthu sa todhchaí agus bailíonn siad iad i liosta. De ghnáth, tarlaíonn na himeachtaí seo in ord ar leith, ar a dtugtar "patrún imeachtaí."
Ansin, samhlaigh go bhfuil úsáideoirí rialta (feistí) agus go leor freastalaithe ag feidhmchlár soghluaiste (láithreán gréasáin). Chun imeachtaí a aistriú go slán ó fheistí go freastalaithe, tá gá le ciseal idirmheánach. Ag brath ar an ailtireacht, d'fhéadfadh go mbeadh roinnt scuainí imeachtaí éagsúla.
Apache Kafka - An bhfuil tábhairne/fo-scuaine, a úsáidtear mar scuaine le haghaidh imeachtaí a bhailiú.

De réir post ar Quora in 2014, chinn cruthaitheoir Apache Kafka na bogearraí a ainmniú i ndiaidh Franz Kafka mar “córas atá optamaithe le haghaidh scríbhneoireachta” agus toisc go raibh grá aige d’oibreacha Kafka. — Wikipedia

В нашем примере есть множество производителей данных и их потребителей (устройства и серверы), и Кафка помогает соединить их друг с другом. Потребители будут описаны подробнее на следующих шагах, где они будут главными субъектами. Сейчас рассмотрим только производителей данных (ивентов).
Кафка инкапсулирует понятия очереди и партиции, более конкретно об этом лучше почитать в другом месте (например, в doiciméadú). Gan dul isteach i sonraí, déanaimis a shamhlú go seolfar feidhmchlár soghluaiste le haghaidh dhá OSes éagsúla. Ansin cruthaíonn gach leagan a sruth imeachtaí ar leith féin. Cuireann táirgeoirí imeachtaí chuig Kafka, déantar iad a thaifeadadh i scuaine oiriúnach.
Córais anailíse freastalaí
(картинка dá bhrí sin)

В то же время, Кафка позволяет считывать кусками и обрабатывать поток ивентов мини-батчами. Кафка очень удобный инструмент, который хорошо масштабируется с ростом потребностей (например, по геолокации ивентов).
De ghnáth is leor shard amháin, ach éiríonn rudaí níos casta agus iad ag scálaithe (mar a dhéanann siad i gcónaí). Is dócha nach mbeidh aon duine ag iarraidh ach shard fisiciúil amháin a úsáid i dtáirgeadh, mar go gcaithfidh an ailtireacht a bheith fabhtach. Chomh maith le Kafka, tá réiteach aitheanta eile - RabbitMQ. Níor úsáideamar é i dtáirgeadh mar scuaine le haghaidh anailísíocht imeachtaí (má tá taithí den sórt sin agat, inis dúinn faoi seo sna tuairimí!). Mar sin féin, d'úsáidamar AWS Kinesis.

Sula dtéann tú ar aghaidh go dtí an chéad chéim eile, ní mór dúinn ciseal breise amháin eile den chóras a lua - stóráil logáil amh. Ní ciseal riachtanach é seo, ach beidh sé úsáideach má théann rud éigin mícheart agus na scuainí imeachta i Kafka a athshocrú. Ní gá réiteach casta agus costasach a bheith ann chun logaí amh a stóráil; is féidir leat iad a scríobh áit éigin san ord ceart (fiú ar dhiosca crua).
Córais anailíse freastalaí

2. Обработка потоков ивентов

Tar éis dúinn na himeachtaí go léir a ullmhú agus iad a chur sna scuainí cuí, téighimid ar aghaidh go dtí an chéim phróiseála. Anseo inseoidh mé duit faoin dá rogha próiseála is coitianta.
Is é an chéad rogha ná Spark Streaming a chumasú i gcóras Apache. Tá gach táirge Apache beo ar HDFS, córas comhaid slán le macasamhla comhaid. Is uirlis éasca le húsáid é Spark Streaming a láimhseálann sonraí agus scálaí sruthú go maith. Mar sin féin, d'fhéadfadh sé a bheith deacair a choimeád ar bun.
Rogha eile is ea do láimhseálaí imeachtaí féin a thógáil. Chun seo a dhéanamh, ní mór duit, mar shampla, feidhmchlár Python a scríobh, é a thógáil i Docker agus liostáil le scuaine Kafka. Nuair a shroicheann truicear na láimhseálaithe docker, cuirfear tús le próiseáil. Leis an modh seo, ní mór duit feidhmchláir a choinneáil ar siúl i gcónaí.
Glacaimid leis go bhfuil ceann de na roghanna a thuairiscítear thuas roghnaithe againn agus bogadh ar aghaidh chuig an bpróiseáil féin. Ba cheart do phróiseálaithe tosú trí bhailíocht na sonraí a sheiceáil, truflais a scagadh agus teagmhais “briste”. Le haghaidh bailíochtaithe a úsáidimid de ghnáth Cerberus. После этого можно сделать маппинг данных: данные с разных источников нормализуются и стандартизируются, чтобы быть добавленными в общую табличку.
Córais anailíse freastalaí

3. Bunachar Sonraí

Is é an tríú céim ná imeachtaí normalaithe a choinneáil. Agus muid ag obair le córas anailíse réamhdhéanta, beidh orainn rochtain a fháil orthu go minic, agus mar sin tá sé tábhachtach bunachar sonraí áisiúil a roghnú.
Má oireann na sonraí go maith i scéim sheasta, is féidir leat a roghnú cliceáiltheach nó bunachar sonraí eile colún. Ar an mbealach seo oibreoidh na comhiomláin go han-tapa. Is é an míbhuntáiste go bhfuil an scéim socraithe go docht agus dá bhrí sin ní bheidh sé indéanta rudaí treallach a chur leis gan modhnú (mar shampla, nuair a tharlaíonn teagmhas neamhchaighdeánach). Ach is féidir leat a chomhaireamh i ndáiríre go han-tapa.
Le haghaidh sonraí neamhstruchtúrtha, is féidir leat NoSQL a ghlacadh, mar shampla, Apache Cassandra. Она работает на HDFS, хорошо реплицируется, можно поднять много инстансов, отказоустойчива.
Is féidir leat rud éigin níos simplí a ardú freisin, mar shampla, MongoDB. Tá sé mall go leor agus le haghaidh méideanna beaga. Ach is é an móide go bhfuil sé an-simplí agus dá bhrí sin oiriúnach le haghaidh tosú.
Córais anailíse freastalaí

4. Comhiomláin

Tar éis dúinn na himeachtaí go léir a shábháil go cúramach, ba mhaith linn an fhaisnéis thábhachtach go léir a bhailiú ón mbaisc a tháinig isteach agus an bunachar sonraí a nuashonrú. Ar fud an domhain, ba mhaith linn daais agus méadracht ábhartha a fháil. Mar shampla, bailigh próifíl úsáideora ó imeachtaí agus déan iompraíocht a thomhas ar bhealach éigin. Déantar imeachtaí a chomhiomlánú, a bhailiú agus a shábháil arís (i dtáblaí úsáideoirí). Ag an am céanna, is féidir leat córas a thógáil ionas gur féidir leat scagaire a nascadh leis an gcomhordaitheoir-chomhbhailitheoir: bailigh úsáideoirí ó chineál áirithe imeachta amháin.
Ina dhiaidh sin, más rud é nach bhfuil ach anailísíocht ardleibhéil ag teastáil ó dhuine ar an bhfoireann, is féidir córais anailísíochta seachtracha a nascadh. Is féidir leat Mixpanel a ghlacadh arís. ach ós rud é go bhfuil sé costasach go leor, ní sheoltar gach imeacht úsáideora ann, ach amháin an méid is gá. Chun seo a dhéanamh, ní mór dúinn comhordaitheoir a chruthú a aistreoidh roinnt imeachtaí amh nó rud éigin a chomhbhailíomar féin níos luaithe chuig córais sheachtracha, APInna nó ardáin fógraíochta.
Córais anailíse freastalaí

5. Aghaidh

К созданной системе нужно подключить фронтенд. Хороший пример — сервис deargadh, это GUI для баз данных, который помогает строить панели. Как устроено взаимодействие:

  1. Déanann an t-úsáideoir ceist SQL.
  2. Mar fhreagra faigheann sé comhartha.
  3. Cruthaíonn ‘amharcléiriú nua’ dó agus faigheann sé graf álainn ar féidir leat a shábháil duit féin.

Визуализации в сервисе автообновляемые, можно настраивать и отслеживать свои мониторинги. Redash бесплатен, в случае self-hosted, а как SaaS будет стоить 50 долларов в месяц.
Córais anailíse freastalaí

Conclúid

Tar éis duit na céimeanna go léir thuas a chríochnú, cruthóidh tú do anailísí freastalaí. Tabhair faoi deara le do thoil nach bhfuil sé seo chomh simplí agus díreach anailísí custaiméirí a nascadh, mar ní mór gach rud a chumrú tú féin. Mar sin, sula gcruthaítear do chóras féin, is fiú an gá atá le córas anailíse tromchúiseach a chur i gcomparáid leis na hacmhainní atá tú sásta a leithdháileadh air.
Если вы все посчитали и получили, что расходы слишком высоки, в следующей части я расскажу о том, как сделать более дешевую версию серверной аналитики.

Go raibh maith agat as léamh! Beidh áthas orm ceisteanna a chur sna tuairimí.

Foinse: will.com

Add a comment