Siostaman anailis frithealaiche

Is e seo an dàrna pàirt de shreath artaigilean mu shiostaman anailis (ceangal gu pàirt 1).

Siostaman anailis frithealaiche

An-diugh chan eil teagamh sam bith ann gum faod làimhseachadh dàta faiceallach agus mìneachadh thoraidhean cuideachadh le cha mhòr seòrsa sam bith de ghnìomhachas. A thaobh seo, tha siostaman anailis a ’sìor fhàs làn de pharamadairean, agus tha an àireamh de luchd-brosnachaidh agus tachartasan luchd-cleachdaidh ann an tagraidhean a’ fàs.
Air sgàth seo, tha companaidhean a’ toirt barrachd is barrachd fiosrachaidh amh don luchd-anailis aca airson mion-sgrùdadh agus tionndadh gu co-dhùnaidhean math. Cha bu chòir dì-meas a dhèanamh air cho cudromach sa tha siostam anailitigeach airson companaidh, agus feumaidh an siostam fhèin a bhith earbsach agus seasmhach.

Luchd-anailis luchd-cleachdaidh

Is e seirbheis a th’ ann an anailis teachdaiche a bhios companaidh a’ ceangal ris an làrach-lìn no an aplacaid aice tron ​​SDK oifigeil, a’ fighe a-steach don bhun-chòd aca fhèin agus a’ taghadh brosnachaidhean tachartais. Tha eas-bhuannachd follaiseach san dòigh-obrach seo: is dòcha nach tèid an dàta gu lèir a chaidh a chruinneachadh a phròiseasadh dìreach mar a bu toil leat air sgàth cuingealachaidhean seirbheis sam bith a thaghas tu. Mar eisimpleir, air aon shiostam cha bhith e furasta gnìomhan MapReduce a ruith, air siostam eile cha bhith e comasach dhut do mhodail a ruith. Is e ana-cothrom eile a bhios ann am bile cunbhalach (drùidhteach) airson seirbheisean.
Tha mòran fhuasglaidhean anailis teachdaiche air a’ mhargaidh, ach nas luaithe no nas fhaide tha luchd-anailis mu choinneimh nach eil seirbheis uile-choitcheann ann a tha iomchaidh airson a h-uile gnìomh (fhad ‘s a tha prìsean nan seirbheisean sin uile ag èirigh fad na h-ùine). Ann an suidheachadh mar sin, bidh companaidhean gu tric a’ co-dhùnadh an siostam sgrùdaidh aca fhèin a chruthachadh leis na roghainnean agus na comasan gnàthaichte riatanach.

Mion-sgrùdairean frithealaiche

Is e seirbheis a th’ ann an anailisean taobh frithealaiche a dh’ fhaodar a chleachdadh taobh a-staigh companaidh air na frithealaichean aige fhèin agus (mar as trice) leis na h-oidhirpean aige fhèin. Anns a ’mhodail seo, tha a h-uile tachartas cleachdaiche air a stòradh air frithealaichean a-staigh, a’ leigeil le luchd-leasachaidh diofar stòran-dàta stòraidh fheuchainn agus an ailtireachd as freagarraiche a thaghadh. Agus eadhon ged a tha thu fhathast airson anailisean teachdaiche treas-phàrtaidh a chleachdadh airson cuid de ghnìomhan, bidh e comasach fhathast.
Faodar anailisean taobh frithealaiche a chleachdadh ann an dà dhòigh. An toiseach: tagh cuid de ghoireasan stòr fosgailte, cuir an sàs iad air na h-innealan agad agus leasaich loidsig gnìomhachais.

Плюсы
Минусы

Faodaidh tu rud sam bith a tha thu ag iarraidh a ghnàthachadh
Tha seo gu math duilich gu tric agus tha feum air luchd-leasachaidh air leth

San dàrna h-àite: gabh seirbheisean SaaS (Amazon, Google, Azure) an àite a bhith ga chleachdadh thu fhèin. Bruidhnidh sinn mu SaaS ann am barrachd mionaideachd anns an treas pàirt.

Плюсы
Минусы

Is dòcha gum bi e nas saoire aig meudan meadhanach, ach le fàs mòr bidh e fhathast ro dhaor
Cha bhith e comasach smachd a chumail air a h-uile paramadair

Tha rianachd gu tur air a ghluasad gu guailnean an t-solaraiche seirbheis
Chan eil fios an-còmhnaidh dè a tha taobh a-staigh na seirbheis (is dòcha nach bi feum air)

Mar a chruinnicheas tu mion-sgrùdadh frithealaiche

Ma tha sinn airson gluasad air falbh bho bhith a’ cleachdadh mion-sgrùdaidhean teachdaiche agus an fheadhainn againn fhèin a thogail, an toiseach feumaidh sinn smaoineachadh tro ailtireachd an t-siostaim ùir. Gu h-ìosal innsidh mi dhut ceum air cheum na dh’ fheumas tu beachdachadh, carson a tha feum air gach ceum agus dè na h-innealan as urrainn dhut a chleachdadh.

1. A 'faighinn dàta

Dìreach mar a tha ann an cùis anailis teachdaiche, an toiseach, bidh luchd-anailis chompanaidhean a’ taghadh na seòrsaichean thachartasan a tha iad airson a sgrùdadh san àm ri teachd agus gan cruinneachadh ann an liosta. Mar as trice, bidh na tachartasan sin a’ tachairt ann an òrdugh sònraichte, ris an canar “pàtran tachartais.”
An uairsin, smaoinich gu bheil luchd-cleachdaidh cunbhalach (innealan) agus mòran luchd-frithealaidh aig tagradh gluasadach (làrach-lìn). Gus tachartasan a ghluasad gu tèarainte bho innealan gu frithealaichean, tha feum air sreath eadar-mheadhanach. A rèir an ailtireachd, dh’ fhaodadh grunn ciudhaichean tachartais a bhith ann.
Apache Kafka A bheil taigh-seinnse/fo-chiudha, a tha air a chleachdadh mar ciudha airson tachartasan a chruinneachadh.

A rèir post air Quora ann an 2014, cho-dhùin neach-cruthachaidh Apache Kafka am bathar-bog ainmeachadh às deidh Franz Kafka air sgàth “is e siostam a th’ ann airson sgrìobhadh ”agus leis gu robh e dèidheil air obraichean Kafka. - Uicipeid

Anns an eisimpleir againn, tha mòran riochdairean dàta agus luchd-cleachdaidh dàta (innealan agus frithealaichean), agus tha Kafka a ’cuideachadh le bhith gan ceangal ri chèile. Thèid cunntas nas mionaidiche a thoirt air luchd-cleachdaidh anns na ceumannan a leanas, far am bi iad nam prìomh chuspairean. A-nis beachdaichidh sinn dìreach air riochdairean dàta (tachartasan).
Tha Kafka a’ toirt a-steach bun-bheachdan ciudha agus sgaradh; tha e nas fheàrr leughadh nas mionaidiche mu dheidhinn seo ann an àiteachan eile (mar eisimpleir, ann an sgrìobhainnean). Gun a bhith a’ dol a-steach gu mion-fhiosrachadh, smaoinichidh sinn gu bheil tagradh gluasadach air a chuir air bhog airson dà OS eadar-dhealaichte. An uairsin bidh gach dreach a’ cruthachadh a shruth tachartais fa leth fhèin. Bidh riochdairean a 'cur thachartasan gu Kafka, tha iad air an clàradh ann an ciudha iomchaidh.
Siostaman anailis frithealaiche
(dealbh bho seo)

Aig an aon àm, leigidh Kafka leat leughadh ann an cnapan agus pròiseas sreath de thachartasan ann am pìosan beaga. Tha Kafka na inneal gu math goireasach a tha a ’dol gu math le feumalachdan a tha a’ sìor fhàs (mar eisimpleir, le bhith a ’suidheachadh thachartasan).
Mar as trice tha aon shard gu leòr, ach bidh cùisean a’ fàs nas toinnte nuair a bhios iad a’ sgèileadh (mar a bhios iad an-còmhnaidh). Is dòcha nach bi duine airson dìreach aon shard corporra a chleachdadh ann an cinneasachadh, oir feumaidh an ailtireachd a bhith fulangach le lochdan. A bharrachd air Kafka, tha fuasgladh ainmeil eile ann - RabbitMQ. Cha do chleachd sinn e ann an cinneasachadh mar ciudha airson mion-sgrùdadh tachartais (ma tha an leithid de eòlas agad, innis dhuinn mu dheidhinn anns na beachdan!). Ach, chleachd sinn AWS Kinesis.

Mus gluais sinn air adhart chun ath cheum, feumaidh sinn iomradh a thoirt air aon shreath eile den t-siostam - stòradh log amh. Chan e ìre riatanach a tha seo, ach bidh e feumail ma thèid rudeigin ceàrr agus na ciudhaichean tachartais ann an Kafka ath-shuidheachadh. Chan fheum stòradh logaichean amh fuasgladh iom-fhillte agus daor; faodaidh tu dìreach an sgrìobhadh an àiteigin san òrdugh cheart (eadhon air clàr cruaidh).
Siostaman anailis frithealaiche

2. Pròiseas sruthan tachartais

Às deidh dhuinn na tachartasan gu lèir ullachadh agus an cur anns na ciudhaichean iomchaidh, gluaisidh sinn air adhart chun cheum giollachd. An seo innsidh mi dhut mun dà roghainn giollachd as cumanta.
Is e a’ chiad roghainn cothrom a thoirt do Spark Streaming ann an siostam Apache. Bidh a h-uile toradh Apache beò air HDFS, siostam faidhle tèarainte le mac-samhail faidhle. Tha Spark Streaming na inneal furasta a chleachdadh a bhios a’ làimhseachadh dàta sruthadh agus lannan gu math. Ge-tà, dh'fhaodadh gum bi e doirbh a chumail suas.
Is e roghainn eile an neach-làimhseachaidh tachartais agad fhèin a thogail. Gus seo a dhèanamh, feumaidh tu, mar eisimpleir, tagradh Python a sgrìobhadh, a thogail ann an Docker agus fo-sgrìobhadh don ciudha Kafka. Nuair a ruigeas luchd-brosnachaidh an luchd-làimhseachaidh docker, tòisichidh giullachd. Leis an dòigh seo, feumaidh tu tagraidhean a chumail a ’dol fad na h-ùine.
Gabhamaid ris gu bheil sinn air aon de na roghainnean a tha air am mìneachadh gu h-àrd a thaghadh agus gluasad air adhart chun ghiullachd fhèin. Bu chòir do phròiseasan tòiseachadh le bhith a’ sgrùdadh dligheachd an dàta, a’ sìoladh sgudal agus tachartasan “briste”. Airson dearbhadh bidh sinn mar as trice a’ cleachdadh Cerberus. Às deidh seo, faodaidh tu mapadh dàta a dhèanamh: tha dàta bho dhiofar thùsan air a àbhaisteachadh agus air a riaghailteachadh gus a chuir ri clàr cumanta.
Siostaman anailis frithealaiche

3. Stòr-dàta

Is e an treas ceum tachartasan àbhaisteach a chumail suas. Nuair a bhios sinn ag obair le siostam anailis deiseil, feumaidh sinn faighinn thuca gu tric, agus mar sin tha e cudromach stòr-dàta iomchaidh a thaghadh.
Ma tha an dàta a 'freagairt gu math ri sgeama stèidhichte, faodaidh tu taghadh Taigh-cliog no stòr-dàta colbh eile. San dòigh seo obraichidh na cruinneachaidhean gu math luath. Is e an ìsleachadh gu bheil an sgeama stèidhichte gu teann agus mar sin cha bhith e comasach nithean neo-riaghailteach a chuir ris gun atharrachadh (mar eisimpleir, nuair a thachras tachartas neo-àbhaisteach). Ach faodaidh tu cunntadh gu math luath.
Airson dàta neo-structaraichte, faodaidh tu NoSQL a ghabhail, mar eisimpleir, Apache Cassandra. Bidh e a’ ruith air HDFS, ag ath-riochdachadh gu math, is urrainn dhut iomadh suidheachadh a thogail, agus tha e fulangach air lochdan.
Faodaidh tu cuideachd rudeigin nas sìmplidh a thogail, mar eisimpleir, MongoDB. Tha e gu math slaodach agus airson meudan beaga. Ach is e a ’bhuannachd a th’ ann gu bheil e gu math sìmplidh agus mar sin freagarrach airson tòiseachadh.
Siostaman anailis frithealaiche

4. Comh-thional

Às deidh dhuinn na tachartasan gu lèir a shàbhaladh gu faiceallach, tha sinn airson a h-uile fiosrachadh cudromach a chruinneachadh bhon bhaidse a ràinig agus an stòr-dàta ùrachadh. Gu cruinneil, tha sinn airson clàran-dannsa agus meatrach iomchaidh fhaighinn. Mar eisimpleir, cruinnich pròifil neach-cleachdaidh bho thachartasan agus dòigh air choireigin tomhas giùlan. Bidh tachartasan air an cruinneachadh, air an cruinneachadh, agus air an sàbhaladh a-rithist (ann an clàran luchd-cleachdaidh). Aig an aon àm, faodaidh tu siostam a thogail gus an urrainn dhut cuideachd criathrag a cheangal ris a’ cho-òrdanaiche cruinneachaidh: cruinnich luchd-cleachdaidh a-mhàin bho sheòrsa sònraichte de thachartas.
Às deidh sin, mura feum cuideigin san sgioba ach mion-sgrùdaidhean àrd-ìre, faodar siostaman anailis taobh a-muigh a cheangal. Faodaidh tu Mixpanel a ghabhail a-rithist. ach leis gu bheil e gu math daor, chan eil a h-uile tachartas luchd-cleachdaidh air an cur ann, ach dìreach na tha a dhìth. Gus seo a dhèanamh, feumaidh sinn co-òrdanaiche a chruthachadh a ghluaiseas cuid de thachartasan amh no rudeigin a chruinnich sinn fhìn na bu thràithe gu siostaman taobh a-muigh, APIan no àrd-ùrlaran sanasachd.
Siostaman anailis frithealaiche

5. Aghaidh

Feumaidh tu an aghaidh aghaidh a cheangal ris an t-siostam cruthaichte. Is e deagh eisimpleir seirbheis deargadh, na GUI stòr-dàta a chuidicheas le bhith a’ togail deas-bhòrdan. Mar a tha an eadar-obrachadh ag obair:

  1. Bidh an neach-cleachdaidh a’ dèanamh ceist SQL.
  2. Mar fhreagairt gheibh e soidhne.
  3. Bidh e a’ cruthachadh ‘sealladh ùr’ air a shon agus a’ faighinn graf àlainn as urrainn dhut a shàbhaladh dhut fhèin.

Tha ìomhaighean san t-seirbheis ag ùrachadh gu fèin-ghluasadach, faodaidh tu do sgrùdadh a ghnàthachadh agus a leantainn. Tha Redash an-asgaidh ma tha e fèin-aoigheachd, ach mar SaaS cosgaidh e $50 gach mìos.
Siostaman anailis frithealaiche

co-dhùnadh

Às deidh dhut na ceumannan gu h-àrd a chrìochnachadh, cruthaichidh tu anailisean an fhrithealaiche agad. Thoir an aire nach eil seo cho sìmplidh ri dìreach a bhith a’ ceangal anailisean teachdaiche, oir feumaidh a h-uile dad a bhith air a rèiteachadh leat fhèin. Mar sin, mus cruthaich thu an siostam agad fhèin, is fhiach coimeas a dhèanamh eadar an fheum air fìor shiostam anailitigeach agus na goireasan a tha thu deònach a riarachadh dha.
Ma tha thu air am matamataigs a dhèanamh agus air faighinn a-mach gu bheil na cosgaisean ro àrd, anns an ath phàirt bruidhnidh mi mu mar a nì thu dreach nas saoire de anailisean taobh an fhrithealaiche.

Tapadh leibh airson an leughadh! Bidh mi toilichte ceistean fhaighneachd anns na beachdan.

Source: www.habr.com

Cuir beachd ann