Tsarukan nazarin uwar garken

Wannan shine kashi na biyu na jerin kasidu game da tsarin nazari (analytical system).link zuwa part 1).

Tsarukan nazarin uwar garken

A yau babu sauran shakka cewa sarrafa bayanai da kuma fassarar sakamako na iya taimakawa kusan kowane nau'in kasuwanci. Dangane da wannan, tsarin nazarin yana ƙara haɓakawa tare da sigogi, kuma adadin abubuwan da ke haifar da abubuwan da suka faru da masu amfani a cikin aikace-aikacen suna girma.
Saboda haka, kamfanoni suna ba wa manazarta ƙarin cikakkun bayanai don yin nazari da juya zuwa yanke shawara mai kyau. Muhimmancin tsarin nazari ga kamfani bai kamata a yi la'akari da shi ba, kuma tsarin da kansa dole ne ya zama abin dogaro kuma ya tabbata.

Masu sharhi na abokin ciniki

Binciken abokin ciniki sabis ne da kamfani ke haɗawa zuwa gidan yanar gizonsa ko aikace-aikacen ta hanyar SDK na hukuma, yana haɗawa cikin lambar lambar sa kuma yana zaɓar abubuwan da ke haifar da aukuwa. Akwai bayyananniyar kasala ga wannan hanyar: duk bayanan da aka tattara ƙila ba za a sarrafa su daidai yadda kuke so ba saboda gazawar kowane sabis ɗin da kuka zaɓa. Misali, a kan wani tsarin ba zai zama da sauƙi don gudanar da ayyukan MapReduce ba, wani kuma ba za ku iya gudanar da samfurin ku ba. Wani rashin lahani zai zama lissafin yau da kullun (m) lissafin ayyuka.
Akwai mafita na ƙididdigar abokin ciniki da yawa a kasuwa, amma ba da daɗewa ba masu sharhi suna fuskantar gaskiyar cewa babu wani sabis na duniya wanda ya dace da kowane ɗawainiya (yayin da farashin duk waɗannan ayyukan ke tashi koyaushe). A cikin irin wannan yanayi, kamfanoni sukan yanke shawarar ƙirƙirar tsarin nazarin nasu tare da duk saitunan al'ada da abubuwan da suka dace.

Manazartan sabar

Nazarin gefen uwar garken sabis ne da za a iya tura shi a cikin kamfani akan sabar sa kuma (yawanci) tare da ƙoƙarinsa. A cikin wannan ƙirar, duk abubuwan da suka faru na mai amfani ana adana su a kan sabobin ciki, ƙyale masu haɓakawa su gwada bayanan adana bayanai daban-daban kuma su zaɓi mafi dacewa gine-gine. Kuma ko da har yanzu kuna son yin amfani da ƙididdigar abokin ciniki na ɓangare na uku don wasu ayyuka, har yanzu zai yiwu.
Ana iya ƙaddamar da nazarin gefen uwar garken ta hanyoyi biyu. Na farko: zaɓi wasu kayan aikin buɗaɗɗen tushe, saka su akan injin ku kuma haɓaka dabarun kasuwanci.

Плюсы
Минусы

Kuna iya tsara duk abin da kuke so
Wannan sau da yawa yana da wahala sosai kuma yana buƙatar masu haɓaka daban

Na biyu: ɗauki sabis na SaaS (Amazon, Google, Azure) maimakon tura shi da kanku. Za mu yi magana game da SaaS dalla-dalla a cikin kashi na uku.

Плюсы
Минусы

Yana iya zama mai rahusa a matsakaicin kundin, amma tare da babban girma har yanzu zai zama tsada sosai
Ba zai yiwu a sarrafa duk sigogi ba

Gudanarwa gaba ɗaya yana canjawa zuwa kafadu na mai bada sabis
Ba koyaushe ake sanin abin da ke cikin sabis ɗin (watakila ba a buƙata)

Yadda ake tattara bayanan uwar garken

Idan muna so mu matsa daga yin amfani da ƙididdigar abokin ciniki kuma mu gina namu, da farko muna buƙatar yin tunani ta hanyar gine-ginen sabon tsarin. A ƙasa zan gaya muku mataki-mataki abin da kuke buƙatar yin la'akari, dalilin da yasa ake buƙatar kowane mataki da kayan aikin da za ku iya amfani da su.

1. Karbar bayanai

Kamar yadda yake a cikin nazarin kwastomomi, da farko, manazarta kamfanoni suna zaɓar nau'ikan abubuwan da suke son yin nazari a nan gaba kuma su tattara su cikin jeri. Yawanci, waɗannan al'amuran suna faruwa a cikin takamaiman tsari, wanda ake kira "tsarin yanayi."
Na gaba, yi tunanin cewa aikace-aikacen wayar hannu (shafin yanar gizo) yana da masu amfani na yau da kullun (na'urori) da sabar da yawa. Don amintacce canja wurin abubuwan da suka faru daga na'urori zuwa sabobin, ana buƙatar matsakaicin Layer. Dangane da tsarin gine-gine, ana iya samun layukan taron daban-daban.
Apache Kafka Shin mashaya/sub jerin gwano, wanda ake amfani da shi azaman jerin gwano don tattara abubuwan da suka faru.

A cewar post on Quora a cikin 2014, mahaliccin Apache Kafka ya yanke shawarar suna software bayan Franz Kafka saboda "tsari ne da aka inganta don rubutu" kuma saboda yana son ayyukan Kafka. - Wikipedia

A cikin misalinmu, akwai masu samar da bayanai da yawa da masu amfani da bayanai (na'urori da na'urori), kuma Kafka yana taimakawa wajen haɗa su da juna. Za a yi bayanin masu amfani dalla-dalla a cikin matakai masu zuwa, inda za su kasance manyan batutuwa. Yanzu za mu yi la'akari da masu samar da bayanai kawai (al'amuran).
Kafka ya ƙunshi ra'ayoyin jerin layi da bangare; yana da kyau a kara karantawa musamman game da wannan a wani wuri (misali, a cikin takardun). Ba tare da shiga cikin cikakkun bayanai ba, bari mu yi tunanin cewa an ƙaddamar da aikace-aikacen wayar hannu don OS guda biyu daban-daban. Sannan kowane nau'i yana ƙirƙirar rafin taron nasa daban. Masu samarwa suna aika abubuwan da suka faru zuwa Kafka, an rubuta su a cikin layi mai dacewa.
Tsarukan nazarin uwar garken
(hoto daga nan)

A lokaci guda kuma, Kafka yana ba ku damar karantawa a cikin chunks da aiwatar da rafi na abubuwan da suka faru a cikin ƙaramin batches. Kafka kayan aiki ne mai matukar dacewa wanda ke da ma'auni da kyau tare da buƙatun girma (misali, ta wurin wuraren abubuwan da suka faru).
Yawancin lokaci shard ɗaya ya isa, amma abubuwa suna daɗaɗaɗawa yayin da ake yin ƙima (kamar yadda koyaushe suke yi). Wataƙila babu wanda zai so ya yi amfani da shard na jiki ɗaya kawai a samarwa, tun da ginin gine-ginen dole ne ya zama mai haƙuri da kuskure. Baya ga Kafka, akwai wani sanannen bayani - RabbitMQ. Ba mu yi amfani da shi ba a samarwa azaman jerin gwano don nazarin taron (idan kuna da irin wannan ƙwarewar, gaya mana game da shi a cikin sharhin!). Koyaya, mun yi amfani da AWS Kinesis.

Kafin ci gaba zuwa mataki na gaba, muna buƙatar ambaci ƙarin ƙarin Layer na tsarin - raw log storage. Wannan ba abin da ake buƙata ba ne, amma zai yi amfani idan wani abu ya yi kuskure kuma an sake saita layukan taron a cikin Kafka. Adana danyen rajistan ayyukan baya buƙatar bayani mai rikitarwa kuma mai tsada; zaku iya rubuta su kawai a wani wuri daidai (har ma akan rumbun kwamfutarka).
Tsarukan nazarin uwar garken

2. Gudanar da rafukan taron

Bayan mun shirya duk abubuwan da suka faru kuma mun sanya su a cikin layi masu dacewa, za mu matsa zuwa matakin sarrafawa. Anan zan gaya muku game da zaɓuɓɓukan sarrafawa guda biyu na gama gari.
Zaɓin farko shine kunna Spark Streaming a cikin tsarin Apache. Duk samfuran Apache suna rayuwa akan HDFS, amintaccen tsarin fayil tare da kwafin fayil. Spark Streaming kayan aiki ne mai sauƙin amfani wanda ke sarrafa bayanan yawo da ma'auni da kyau. Koyaya, yana iya zama da wahala a kiyaye.
Wani zaɓi shine gina naku mai kula da taron. Don yin wannan, kuna buƙatar, misali, rubuta aikace-aikacen Python, gina shi a cikin Docker kuma ku shiga cikin layin Kafka. Lokacin da abubuwan motsa jiki suka isa wurin masu sarrafa docker, za a fara aiki. Tare da wannan hanyar, kuna buƙatar ci gaba da gudanar da aikace-aikacen a kowane lokaci.
Bari mu ɗauka cewa mun zaɓi ɗaya daga cikin zaɓuɓɓukan da aka bayyana a sama kuma mu matsa zuwa sarrafa kanta. Ya kamata masu sarrafawa su fara ta hanyar duba ingancin bayanan, tace datti da abubuwan "karya". Don tabbatarwa yawanci muna amfani da su Cerberus. Bayan wannan, zaku iya yin taswirar bayanai: bayanai daga tushe daban-daban an daidaita su kuma an daidaita su don ƙarawa zuwa tebur gama gari.
Tsarukan nazarin uwar garken

3. Database

Mataki na uku shine kiyaye al'amuran da aka saba. Lokacin aiki tare da tsarin nazari da aka shirya, dole ne mu sami damar yin amfani da su sau da yawa, don haka yana da mahimmanci a zaɓi ingantaccen bayanai.
Idan bayanan sun yi daidai da ƙayyadaddun tsari, zaku iya zaɓar danna gidan ko wasu bayanan yanar gizo. Ta wannan hanyar haɗin gwiwar za su yi aiki da sauri. Ƙarƙashin ƙasa shi ne cewa tsarin yana da tsayayyen tsari kuma saboda haka ba zai yiwu a ƙara abubuwa masu sabani ba tare da gyare-gyare (misali, lokacin da ba daidai ba ya faru). Amma kuna iya ƙirga da sauri sosai.
Don bayanan da ba a tsara su ba, zaku iya ɗaukar NoSQL, misali, Apache cassandra. Yana aiki akan HDFS, yana kwafi da kyau, zaku iya ɗaga lamura da yawa, kuma yana da haƙuri.
Hakanan zaka iya ɗaga wani abu mafi sauƙi, misali, MongoDB. Yana da sannu a hankali kuma don ƙananan kundin. Amma ƙari shine cewa yana da sauƙi kuma saboda haka ya dace da farawa.
Tsarukan nazarin uwar garken

4. Tari

Bayan adana duk abubuwan da suka faru a hankali, muna son tattara duk mahimman bayanai daga rukunin da suka isa kuma mu sabunta bayanan. A duk duniya, muna son samun dashboards da ma'auni masu dacewa. Misali, tara bayanin martabar mai amfani daga abubuwan da suka faru sannan auna hali ko ta yaya. Ana tattara abubuwan da suka faru, ana tattarawa, kuma an sake adana su (a cikin teburin masu amfani). A lokaci guda, zaku iya gina tsarin ta yadda zaku iya haɗa matattara zuwa mai haɗa-kodineta: tattara masu amfani kawai daga wani nau'in taron.
Bayan haka, idan wani a cikin ƙungiyar kawai yana buƙatar ƙididdiga masu girma, ana iya haɗa tsarin nazarin waje. Kuna iya sake ɗaukar Mixpanel. amma tunda yana da tsada sosai, ba duk abubuwan da suka faru na masu amfani ba ne ake aika su zuwa wurin, amma kawai abin da ake buƙata. Don yin wannan, muna buƙatar ƙirƙirar mai gudanarwa wanda zai canja wurin wasu abubuwan da suka faru ko wani abu da mu kanmu muka tattara a baya zuwa tsarin waje, APIs ko dandamalin talla.
Tsarukan nazarin uwar garken

5. Gaban gaba

Kuna buƙatar haɗa gaban gaba zuwa tsarin da aka ƙirƙira. Kyakkyawan misali shine sabis jajanta, GUI ne na bayanai wanda ke taimakawa gina dashboards. Yadda hulɗar ke aiki:

  1. Mai amfani yana yin tambayar SQL.
  2. A mayar da martani ya sami alama.
  3. Yana ƙirƙirar 'sabon gani' don shi kuma yana samun kyakkyawan hoto wanda zaku iya ajiyewa don kanku.

Abubuwan gani a cikin sabis ɗin suna sabuntawa ta atomatik, zaku iya keɓancewa da bin diddigin kulawar ku. Redash yana da kyauta idan an shirya shi, amma a matsayin SaaS zai biya $ 50 kowace wata.
Tsarukan nazarin uwar garken

ƙarshe

Bayan kammala duk matakan da ke sama, za ku ƙirƙiri nazarin sabar ku. Lura cewa wannan ba mai sauƙi ba ne kamar haɗa ƙididdigar abokin ciniki kawai, saboda komai yana buƙatar daidaitawa da kanka. Sabili da haka, kafin ƙirƙirar tsarin ku, yana da kyau a kwatanta buƙatar tsarin nazari mai mahimmanci tare da albarkatun da kuke son ware masa.
Idan kun yi lissafi kuma kun gano cewa farashin ya yi yawa, a kashi na gaba zan yi magana game da yadda ake yin sigar nazarin gefen uwar garken mai rahusa.

Na gode da karantawa! Zan yi farin cikin yin tambayoyi a cikin sharhi.

source: www.habr.com

Add a comment