Cruthaich siostam fèin-ghluasadach gus cuir an-aghaidh luchd-ionnsaigh air an làrach (foill)

Airson timcheall air sia mìosan tha mi air a bhith a’ cruthachadh siostam gus cuir an-aghaidh foill (gnìomh foill, foill, msaa) gun bhun-structar tùsail sam bith airson seo. Tha na beachdan a tha sinn air a lorg agus a chuir an gnìomh san t-siostam againn an-diugh gar cuideachadh gus mòran de ghnìomhachdan meallta a lorg agus a sgrùdadh. San artaigil seo, bu mhath leam bruidhinn mu na prionnsapalan a lean sinn agus na rinn sinn gus staid làithreach ar siostam a choileanadh, gun a dhol a-steach don phàirt theicnigeach.

Prionnsabalan an t-siostam againn

Nuair a chluinneas tu teirmean mar “fèin-ghluasadach” agus “foill,” tha e coltach gun tòisich thu a’ smaoineachadh mu ionnsachadh innealan, Apache Spark, Hadoop, Python, Airflow, agus teicneòlasan eile bho eag-shiostam Apache Foundation agus an raon Saidheans Dàta. Tha mi a’ smaoineachadh gu bheil aon taobh de bhith a’ cleachdadh nan innealan sin nach eilear ag ainmeachadh: feumaidh iad ro-ghoireasan sònraichte san t-siostam iomairt agad mus urrainn dhut tòiseachadh gan cleachdadh. Ann an ùine ghoirid, feumaidh tu àrd-ùrlar dàta iomairt a tha a’ toirt a-steach loch dàta agus taigh-bathair. Ach dè mura h-eil an leithid de àrd-ùrlar agad agus gu feum thu fhathast an cleachdadh seo a leasachadh? Tha na prionnsapalan a leanas a tha mi a’ roinn gu h-ìosal air ar cuideachadh le bhith a’ ruighinn ìre far am faod sinn fòcas a chuir air ar beachdan a leasachadh seach a bhith a’ lorg fear a tha ag obair. Ach, chan e àrd-ùrlar pròiseict a tha seo. Tha tòrr rudan fhathast sa phlana bho shealladh teicneòlach agus toraidh.

Prionnsabal 1: Luach Gnìomhachais an toiseach

Chuir sinn “luach gnìomhachais” aig fìor thoiseach ar n-oidhirpean gu lèir. San fharsaingeachd, buinidh siostam sgrùdaidh fèin-ghluasadach sam bith don bhuidheann de shiostaman iom-fhillte le ìre àrd de fèin-ghluasad agus iom-fhillteachd theicnigeach. Bheir cruthachadh fuasgladh coileanta tòrr ùine ma chruthaicheas tu e bhon fhìor thoiseach. Cho-dhùin sinn luach gnìomhachais a chuir an toiseach agus iomlanachd teicneòlach san dàrna àite. Ann am fìor bheatha, tha seo a’ ciallachadh nach gabh sinn ri teicneòlas adhartach mar dogma. Bidh sinn a’ taghadh an teicneòlas a tha ag obair as fheàrr dhuinn an-dràsta. Thar ùine, is dòcha gum bi e coltach gum feum sinn cuid de mhodalan ath-chur an gnìomh. Is e seo an co-rèiteachadh ris an do ghabh sinn.

Prionnsabal 2: Eòlas leasaichte

Cuiridh mi geall gum faodadh a’ mhòr-chuid de dhaoine nach eil gu mòr an sàs ann a bhith a’ leasachadh fhuasglaidhean ionnsachaidh innealan smaoineachadh gur e an amas a bhith a’ dol an àite dhaoine. Gu dearbh, tha fuasglaidhean ionnsachaidh innealan fada bho bhith foirfe agus is ann dìreach ann an cuid de raointean a tha e comasach ath-chur. Dhiùlt sinn am beachd seo bhon toiseach airson grunn adhbharan: dàta neo-chothromach air gnìomhachd meallta agus an neo-chomas liosta iomlan de fheartan a thoirt seachad airson modalan ionnsachaidh inneal. An coimeas ri sin, thagh sinn an roghainn fiosrachaidh leasaichte. Is e bun-bheachd eile a tha seo de dh’ inntleachd fuadain a tha ag amas air àite taiceil AI, a’ daingneachadh gu bheil teicneòlasan inntleachdail ag amas air inntleachd daonna àrdachadh seach a bhith na àite. [1]

Leis an seo, bhiodh feum air oidhirp mhòr a bhith a’ leasachadh fuasgladh ionnsachaidh inneal coileanta bhon toiseach, a chuireadh dàil air cruthachadh luach don ghnìomhachas againn. Cho-dhùin sinn siostam a thogail le taobh ionnsachadh innealan a tha a’ fàs a-rithist fo stiùireadh ar n-eòlaichean fearainn. Is e am pàirt dùbhlanach de bhith a’ leasachadh siostam mar seo gum feum e cùisean a thoirt don luchd-anailis againn chan ann a-mhàin a thaobh an e gnìomhachd meallta a th’ ann no nach eil. San fharsaingeachd, tha neo-riaghailteachd sam bith ann an giùlan teachdaiche na chùis amharasach a dh’ fheumas eòlaichean sgrùdadh agus freagairt dòigh air choireigin. Chan urrainnear ach bloigh de na cùisean a chaidh aithris sin a mheas mar foill.

Prionnsabal 3: Àrd-ùrlar Rich Analytics

Is e am pàirt as dùbhlanaiche den t-siostam againn dearbhadh deireadh-gu-deireadh air sruth-obrach an t-siostaim. Bu chòir do luchd-anailis agus luchd-leasachaidh seataichean dàta eachdraidheil fhaighinn gu furasta leis a h-uile meatrach a thathar a’ cleachdadh airson mion-sgrùdadh. A bharrachd air an sin, bu chòir don àrd-ùrlar dàta dòigh fhurasta a thoirt seachad gus seata de mheatairean a th’ ann mar-thà a chur ri feadhainn ùra. Bu chòir na pròiseasan a bhios sinn a’ cruthachadh, agus chan e dìreach pròiseasan bathar-bog a tha seo, leigeil leinn amannan roimhe ath-àireamhachadh gu furasta, metrics ùra a chur ris agus ro-aithris an dàta atharrachadh. B’ urrainn dhuinn seo a choileanadh le bhith a’ cruinneachadh an dàta gu lèir a bhios an siostam toraidh againn a’ gineadh. Anns a 'chùis seo, mean air mhean bhiodh an dàta na dhuilgheadas. Dh'fheumadh sinn barrachd dàta a stòradh nach bi sinn a' cleachdadh agus a dhìon. Ann an suidheachadh mar sin, bidh dàta a’ fàs nas neo-iomchaidh thar ùine, ach tha feum fhathast air ar n-oidhirpean gus a riaghladh. Dhuinne, cha robh tional dàta a’ dèanamh ciall, agus mar sin chuir sinn romhainn dòigh-obrach eile a ghabhail. Cho-dhùin sinn stòran dàta fìor-ùine a chuir air dòigh timcheall air na buidhnean targaid a tha sinn airson a sheòrsachadh, agus dìreach an dàta a stòradh a leigeas leinn sgrùdadh a dhèanamh air na h-amannan as ùire agus as iomchaidh. Is e an dùbhlan don oidhirp seo gu bheil an siostam againn ioma-ghnèitheach, le grunn stòran dàta agus modalan bathar-bog a dh’ fheumas dealbhadh faiceallach gus obrachadh ann an dòigh chunbhalach.

Bun-bheachdan dealbhaidh ar siostam

Tha ceithir prìomh phàirtean san t-siostam againn: siostam in-ghabhail, coimpiutaireachd, mion-sgrùdadh BI agus siostam tracadh. Bidh iad a’ frithealadh adhbharan sònraichte, iomallach, agus bidh sinn gan cumail leotha fhèin le bhith a’ leantainn dòighean dealbhaidh sònraichte.

Cruthaich siostam fèin-ghluasadach gus cuir an-aghaidh luchd-ionnsaigh air an làrach (foill)

Dealbhadh stèidhichte air cùmhnant

An toiseach, dh’ aontaich sinn nach bu chòir co-phàirtean a bhith an urra ri cuid de structaran dàta (cùmhnantan) a thèid eatorra. Tha seo ga dhèanamh furasta aonachadh eatorra agus gun a bhith a’ sparradh co-dhèanamh sònraichte (agus òrdugh) de cho-phàirtean. Mar eisimpleir, ann an cuid de chùisean leigidh seo leinn an siostam in-ghabhail a thoirt a-steach gu dìreach leis an t-siostam tracadh rabhaidh. Ann an leithid de chùis, thèid seo a dhèanamh a rèir a’ chùmhnant rabhaidh aontaichte. Tha seo a’ ciallachadh gum bi an dà phàirt air am filleadh a-steach a’ cleachdadh cùmhnant a dh’fhaodas pàirt sam bith eile a chleachdadh. Cha bhith sinn a’ cur cùmhnant a bharrachd ris gus rabhaidhean a chuir ris an t-siostam tracadh bhon t-siostam cuir a-steach. Feumaidh an dòigh-obrach seo a bhith a’ cleachdadh àireamh as lugha de chùmhnantan ro-shuidhichte agus a’ sìmpleachadh an t-siostam agus an conaltradh. Gu bunaiteach, bidh sinn a’ cleachdadh dòigh-obrach ris an canar “Contract First Design” agus ga chuir an sàs ann an cùmhnantan sruthadh. [2]

A 'sruthadh anns a h-uile àite

Bidh sàbhaladh agus riaghladh stàite ann an siostam gu cinnteach a’ leantainn gu duilgheadasan ann a bhith ga bhuileachadh. San fharsaingeachd, bu chòir don stàit a bhith ruigsinneach bho phàirt sam bith, bu chòir dha a bhith cunbhalach agus an luach as ùire a thoirt seachad thar gach pàirt, agus bu chòir dha a bhith earbsach leis na luachan ceart. A bharrachd air an sin, le bhith a’ faighinn fiosan gu stòradh leantainneach gus an staid as ùire fhaighinn air ais meudaichidh sin an àireamh de ghnìomhachd I / O agus iom-fhillteachd nan algoirmean a thathas a ’cleachdadh anns na pìoban fìor-ùine againn. Air sgàth seo, chuir sinn romhainn stòradh stàite a thoirt air falbh, ma ghabhas e dèanamh, gu tur bhon t-siostam againn. Tha an dòigh-obrach seo ag iarraidh gum bi a h-uile dàta riatanach air a thoirt a-steach don bhloc dàta tar-chuir (teachdaireachd). Mar eisimpleir, ma dh'fheumas sinn obrachadh a-mach an àireamh iomlan de chuid de bheachdan (an àireamh de ghnìomhan no chùisean le feartan sònraichte), bidh sinn ga obrachadh mar chuimhneachan agus a 'cruthachadh sruth de luachan mar sin. Cleachdaidh modalan eisimeileach sgaradh agus baidseadh gus an t-sruth a roinn ann an aonadan agus obrachadh air na luachan as ùire. Chuir an dòigh-obrach seo às don fheum air stòradh diosc leantainneach airson an leithid de dhàta. Bidh an siostam againn a’ cleachdadh Kafka mar broker teachdaireachd agus faodar a chleachdadh mar stòr-dàta le KSQL. [3] Ach bhiodh a bhith ga chleachdadh air ar fuasgladh a cheangal gu mòr ri Kafka, agus chuir sinn romhainn gun a chleachdadh. Leigidh an dòigh-obrach a thagh sinn leinn broker teachdaireachd eile a chuir an àite Kafka gun atharrachaidhean mòra a-staigh air an t-siostam.

Chan eil am bun-bheachd seo a’ ciallachadh nach bi sinn a’ cleachdadh stòradh diosc agus stòran-dàta. Gus coileanadh siostam a dhearbhadh agus a sgrùdadh, feumaidh sinn tòrr dàta a stòradh air diosc a tha a’ riochdachadh diofar mheatairean agus stàitean. Is e a’ phuing chudromach an seo nach eil algorithms fìor-ùine an urra ri dàta mar sin. Anns a 'mhòr-chuid de chùisean, bidh sinn a' cleachdadh an dàta a tha air a stòradh airson mion-sgrùdadh far-loidhne, a 'deasbad agus a' cumail sùil air cùisean sònraichte agus toraidhean a bhios an siostam a 'dèanamh.

Duilgheadasan an t-siostam againn

Tha cuid de dhuilgheadasan ann a tha sinn air fhuasgladh gu ìre shònraichte, ach tha feum aca air fuasglaidhean nas smaoineachail. A-nis bu mhath leam iomradh a thoirt orra an seo oir is fhiach gach puing a artaigil fhèin.

  • Feumaidh sinn fhathast pròiseasan agus poileasaidhean a mhìneachadh a bheir taic do chruinneachadh dàta brìoghmhor agus buntainneach airson ar mion-sgrùdadh dàta fèin-ghluasadach, lorg agus sgrùdadh.
  • Cuir a-steach toraidhean mion-sgrùdadh daonna a-steach don phròiseas gus an siostam a stèidheachadh gu fèin-ghluasadach gus ùrachadh leis an dàta as ùire. Chan e a-mhàin gu bheil seo ag ùrachadh ar modail, ach cuideachd ag ùrachadh ar pròiseasan agus ag adhartachadh ar tuigse air an dàta againn.
  • A’ lorg cothromachadh eadar dòigh-obrach cinntiche IF-ELSE agus ML. Thuirt cuideigin, “Is e inneal a th’ ann am ML airson an èiginn. ” Tha seo a’ ciallachadh gum bi thu airson ML a chleachdadh nuair nach eil thu a’ tuigsinn tuilleadh mar a leasaicheas tu agus a leasaicheas tu na h-algorithms agad. Air an làimh eile, chan eil an dòigh cinntiche a’ ceadachadh neo-riaghailteachdan a lorg ris nach robh dùil.
  • Feumaidh sinn dòigh shìmplidh gus ar beachd-bharail no co-dhàimhean eadar meatrach san dàta a dhearbhadh.
  • Feumaidh grunn ìrean de fhìor thoraidhean adhartach a bhith aig an t-siostam. Chan eil ann an cùisean foill ach bloigh de gach cùis a dh’ fhaodar a mheas deimhinneach airson an t-siostam. Mar eisimpleir, tha luchd-anailis ag iarraidh a h-uile cùis amharasach fhaighinn airson dearbhadh, agus chan eil ann ach cuid bheag dhiubh foill. Feumaidh an siostam a h-uile cùis a thaisbeanadh gu h-èifeachdach do luchd-anailis, ge bith an e fìor fhoill a th’ ann no dìreach giùlan amharasach.
  • Bu chòir gum biodh an àrd-ùrlar dàta comasach air seataichean dàta eachdraidheil fhaighinn air ais le àireamhachadh air a chruthachadh agus air a thomhas air an itealan.
  • Cuir gu furasta agus gu fèin-ghluasadach gin de na pàirtean siostam ann an co-dhiù trì àrainneachdan eadar-dhealaichte: cinneasachadh, deuchainneach (beta) agus airson luchd-leasachaidh.
  • Agus mu dheireadh ach chan e as ìsle. Feumaidh sinn àrd-ùrlar dearbhaidh coileanaidh beairteach a thogail air an urrainn dhuinn na modalan againn a sgrùdadh. [4]

iomraidhean

  1. Dè a th’ ann an Eòlas Meudaichte?
  2. Cur an gnìomh modh dealbhaidh API-First
  3. Kafka ag atharrachadh gu “Stòr-dàta Sruth Tachartas”
  4. A’ tuigsinn AUC - ROC Curve

Source: www.habr.com

Cuir beachd ann