Paghimo sa usa ka awtomatik nga sistema sa pakigbatok sa mga manunulong sa site (panlimbong)

Sulod sa milabay nga mga unom ka bulan nagmugna ako og sistema sa pagsukol sa pagpanglimbong (panglimbong nga kalihokan, pagpangilad, ug uban pa) nga walay bisan unsang inisyal nga imprastraktura para niini. Ang mga ideya karon nga among nakit-an ug gipatuman sa among sistema makatabang kanamo sa pag-ila ug pag-analisar sa daghang mga kalihokan sa pagpanglimbong. Niini nga artikulo, gusto nakong hisgutan ang mga prinsipyo nga among gisunod ug unsa ang among gibuhat aron makab-ot ang kasamtangan nga kahimtang sa among sistema, nga dili moadto sa teknikal nga bahin.

Mga prinsipyo sa atong sistema

Kung makadungog ka sa mga termino sama sa "awtomatiko" ug "panglimbong," lagmit magsugod ka sa paghunahuna bahin sa pagkat-on sa makina, Apache Spark, Hadoop, Python, Airflow, ug uban pang mga teknolohiya gikan sa ekosistema sa Apache Foundation ug natad sa Data Science. Sa akong hunahuna adunay usa ka aspeto sa paggamit sa kini nga mga himan nga dili kasagaran nga hisgutan: nanginahanglan sila mga piho nga kinahanglanon sa imong sistema sa negosyo sa dili pa nimo kini magamit. Sa laktud, kinahanglan nimo ang usa ka platform sa data sa negosyo nga naglakip sa usa ka lawa sa datos ug bodega. Apan unsa man kung wala ka sa ingon nga plataporma ug kinahanglan pa nga pauswagon kini nga praktis? Ang mosunod nga mga baruganan nga akong gipakigbahin sa ubos nakatabang kanamo nga makaabot sa punto diin kami maka-focus sa pagpauswag sa among mga ideya kay sa pagpangita sa usa nga mosaler. Bisan pa, dili kini usa ka patag sa proyekto. Adunay daghan pa nga mga butang sa plano gikan sa punto sa panglantaw sa teknolohiya ug produkto.

Prinsipyo 1: Una ang Bili sa Negosyo

Gibutang namon ang "bili sa negosyo" sa unahan sa tanan namon nga mga paningkamot. Sa kinatibuk-an, ang bisan unsang awtomatikong sistema sa pag-analisar nahisakop sa grupo sa mga komplikadong sistema nga adunay taas nga lebel sa automation ug teknikal nga pagkakomplikado. Ang paghimo sa usa ka kompleto nga solusyon magkinahanglan og daghang oras kung imong gimugna kini gikan sa wala. Nakahukom kami nga unahon ang bili sa negosyo ug ikaduha ang pagkakompleto sa teknolohiya. Sa tinuod nga kinabuhi, nagpasabot kini nga dili nato dawaton ang advanced technology isip dogma. Gipili namo ang teknolohiya nga labing maayo alang kanamo sa pagkakaron. Sa paglabay sa panahon, ingon og kinahanglan naton nga ipatuman pag-usab ang pipila ka mga module. Kini ang pagkompromiso nga among gidawat.

Prinsipyo 2: Gipadako nga paniktik

Gipusta nako ang kadaghanan sa mga tawo nga dili kaayo apil sa paghimo og mga solusyon sa pagkat-on sa makina tingali maghunahuna nga ang pag-ilis sa mga tawo mao ang katuyoan. Sa tinuud, ang mga solusyon sa pagkat-on sa makina layo sa perpekto ug sa pipila ra nga mga lugar posible ang pagpuli. Gisalikway namo kini nga ideya gikan sa sinugdanan tungod sa daghang mga rason: dili balanse nga datos sa malimbungon nga kalihokan ug ang kawalay katakus sa paghatag og usa ka komprehensibo nga listahan sa mga bahin alang sa mga modelo sa pagkat-on sa makina. Sa kasukwahi, among gipili ang gipauswag nga kapilian sa paniktik. Kini usa ka alternatibong konsepto sa artificial intelligence nga nagtutok sa pagsuporta sa papel sa AI, nga nagpasiugda sa kamatuoran nga ang mga teknolohiya sa panghunahuna gituyo aron sa pagpalambo sa tawhanong paniktik imbes nga pulihan kini. [1]

Tungod niini, ang paghimo sa usa ka kompleto nga solusyon sa pagkat-on sa makina gikan sa sinugdanan nanginahanglan usa ka dako nga paningkamot, nga malangan ang paghimo sa kantidad alang sa among negosyo. Nakahukom kami nga maghimo usa ka sistema nga adunay usa ka nagbalikbalik nga nagtubo nga aspeto sa pagkat-on sa makina ubos sa paggiya sa among mga eksperto sa domain. Ang mahagiton nga bahin sa pagpalambo sa ingon nga sistema mao nga kini kinahanglan nga maghatag sa among mga analista sa mga kaso dili lamang kung kini usa ka malimbong nga kalihokan o dili. Sa kinatibuk-an, ang bisan unsang anomaliya sa pamatasan sa kostumer usa ka kadudahang kaso nga kinahanglan imbestigahan ug tubagon sa mga espesyalista bisan unsang paagi. Usa lamang ka tipik niining gikataho nga mga kaso ang tinuod nga maklasipikar isip pagpanglimbong.

Prinsipyo 3: Dagaya nga Platform sa Analytics

Ang labing mahagiton nga bahin sa among sistema mao ang end-to-end nga pag-verify sa workflow sa system. Ang mga analista ug mga developer kinahanglan nga dali nga makakuha sa makasaysayan nga mga set sa datos sa tanan nga mga sukatan nga gigamit alang sa pagtuki. Dugang pa, ang plataporma sa datos kinahanglan maghatag usa ka dali nga paagi aron makompleto ang usa ka naglungtad nga set sa mga sukatan sa mga bag-o. Ang mga proseso nga among gimugna, ug kini dili lang mga proseso sa software, kinahanglan nga magtugot kanamo nga dali nga makalkula pag-usab ang nangaging mga panahon, makadugang bag-ong mga sukatan ug usbon ang forecast sa datos. Mahimo namon kini pinaagi sa pagtipon sa tanan nga datos nga namugna sa among sistema sa produksiyon. Sa kini nga kaso, ang datos anam-anam nga mahimong usa ka nuisance. Kinahanglan namong tipigan ang nagkadaghang datos nga wala namo gamita ug panalipdan kini. Sa ingon nga senaryo, ang datos mahimong labi nga wala’y kalabotan sa paglabay sa panahon, apan kinahanglan gihapon ang among mga paningkamot sa pagdumala niini. Alang kanamo, ang data hoarding dili makatarunganon, mao nga kami nakahukom sa paghimo sa lain nga pamaagi. Nakahukom kami sa pag-organisar sa tinuod nga panahon nga mga tindahan sa datos sa palibot sa mga target nga entidad nga gusto namong iklasipikar, ug tipigan lamang ang datos nga nagtugot kanamo sa pagsusi sa pinakabag-o ug may kalabutan nga mga panahon. Ang hagit niini nga paningkamot mao nga ang among sistema kay heterogeneous, nga adunay daghang mga data store ug software modules nga nanginahanglan ug mabinantayon nga pagplano aron molihok sa makanunayon nga paagi.

Pagdesinyo sa mga konsepto sa among sistema

Adunay kami upat ka panguna nga sangkap sa among sistema: sistema sa pagtunaw, computational, pagtuki sa BI ug sistema sa pagsubay. Nagsilbi sila nga piho, nahilain nga mga katuyoan, ug gipadayon namon sila nga nahimulag pinaagi sa pagsunod sa piho nga mga pamaagi sa pagdesinyo.

Paghimo sa usa ka awtomatik nga sistema sa pakigbatok sa mga manunulong sa site (panlimbong)

Disenyo base sa kontrata

Una sa tanan, miuyon kami nga ang mga sangkap kinahanglan magsalig lamang sa pipila nga mga istruktura sa datos (mga kontrata) nga gipasa sa taliwala nila. Gipasayon ​​niini ang pag-integrate sa taliwala nila ug dili pagpahamtang og piho nga komposisyon (ug han-ay) sa mga sangkap. Pananglitan, sa pipila ka mga kaso kini nagtugot kanato sa direktang pag-integrate sa sistema sa pag-inom sa alert tracking system. Sa ingon nga kaso, kini buhaton subay sa gikasabutan nga kontrata sa alerto. Kini nagpasabut nga ang duha nga mga sangkap i-integrate gamit ang usa ka kontrata nga magamit sa bisan unsang ubang sangkap. Dili kami magdugang usa ka dugang nga kontrata aron madugangan ang mga alerto sa sistema sa pagsubay gikan sa sistema sa pag-input. Kini nga pamaagi nagkinahanglan sa paggamit sa usa ka gitino nang daan nga minimum nga gidaghanon sa mga kontrata ug gipasimple ang sistema ug komunikasyon. Sa tinuud, nagkuha kami usa ka pamaagi nga gitawag nga "Kontrata sa Unang Disenyo" ug gipadapat kini sa mga streaming nga kontrata. [2]

Pag-stream bisan asa

Ang pagtipig ug pagdumala sa estado sa usa ka sistema dili kalikayan nga mosangpot sa mga komplikasyon sa pagpatuman niini. Sa kinatibuk-an, ang estado kinahanglan nga ma-access gikan sa bisan unsang sangkap, kini kinahanglan nga makanunayon ug maghatag labing bag-o nga kantidad sa tanan nga mga sangkap, ug kinahanglan kini kasaligan sa husto nga mga kantidad. Dugang pa, ang pagbaton og mga tawag sa padayon nga pagtipig aron makuha ang pinakabag-o nga estado makadugang sa gidaghanon sa mga operasyon sa I/O ug pagkakomplikado sa mga algorithm nga gigamit sa among mga real-time nga pipelines. Tungod niini, nakahukom kami nga tangtangon ang pagtipig sa estado, kung mahimo, sa hingpit gikan sa among sistema. Kini nga pamaagi nanginahanglan nga ang tanan nga kinahanglan nga datos iapil sa gipasa nga data block (mensahe). Pananglitan, kung kinahanglan naton kuwentahon ang kinatibuk-ang ihap sa pipila nga mga obserbasyon (ang gidaghanon sa mga operasyon o mga kaso nga adunay piho nga mga kinaiya), gikalkula namon kini sa panumduman ug nagmugna usa ka sapa sa ingon nga mga kantidad. Ang mga dependent modules mogamit sa partition ug batching aron mabahin ang stream ngadto sa mga entidad ug mag-operate sa pinakabag-o nga mga kantidad. Kini nga pamaagi nagwagtang sa panginahanglan nga adunay padayon nga pagtipig sa disk alang sa ingon nga datos. Gigamit sa among sistema ang Kafka ingon usa ka broker sa mensahe ug mahimo kini gamiton ingon usa ka database nga adunay KSQL. [3] Apan ang paggamit niini makahigot pag-ayo sa among solusyon sa Kafka, ug nakahukom kami nga dili kini gamiton. Ang pamaagi nga among gipili nagtugot kanamo sa pag-ilis sa Kafka sa laing mensahe nga broker nga walay dagkong internal nga mga kausaban sa sistema.

Kini nga konsepto wala magpasabut nga wala kami mogamit sa pagtipig sa disk ug mga database. Aron masulayan ug analisahon ang performance sa sistema, kinahanglan natong tipigan ang daghang data sa disk nga nagrepresentar sa lain-laing metrics ug states. Ang importante nga punto dinhi mao nga ang real-time nga mga algorithm wala magdepende sa maong datos. Sa kadaghanan nga mga kaso, among gigamit ang gitipigan nga datos alang sa offline nga pagtuki, pag-debug ug pagsubay sa mga piho nga kaso ug mga resulta nga gipatungha sa sistema.

Mga problema sa atong sistema

Adunay pipila ka mga problema nga among nasulbad sa usa ka lebel, apan kini nanginahanglan labi ka mahunahunaon nga mga solusyon. Karon gusto ko lang nga hisgutan sila dinhi tungod kay ang matag punto takus sa kaugalingon nga artikulo.

  • Kinahanglan pa namon nga ipasabut ang mga proseso ug mga palisiya nga nagsuporta sa pagtipon sa makahuluganon ug may kalabutan nga datos alang sa among awtomatiko nga pagtuki sa datos, pagkadiskobre, ug pagsuhid.
  • Ang pag-apil sa pag-analisa sa tawo moresulta sa proseso sa awtomatikong pag-set up sa sistema aron ma-update kini sa pinakabag-o nga datos. Dili lang kini ang pag-update sa among modelo, apan pag-update usab sa among mga proseso ug pagpauswag sa among pagsabut sa among datos.
  • Pagpangita usa ka balanse tali sa deterministikong pamaagi sa IF-ELSE ug ML. Adunay miingon, "Ang ML usa ka himan alang sa mga desperado." Nagpasabot kini nga gusto nimong gamiton ang ML kung wala ka na makasabut kung giunsa ang pag-optimize ug pagpauswag sa imong mga algorithm. Sa laing bahin, ang deterministikong pamaagi wala magtugot sa pagkakita sa mga anomaliya nga wala damha.
  • Kinahanglan namon ang usa ka yano nga paagi aron masulayan ang among mga hypotheses o correlations tali sa mga sukatan sa datos.
  • Ang sistema kinahanglan adunay daghang lebel sa tinuod nga positibo nga mga sangputanan. Ang mga kaso sa pagpangilad tipik lamang sa tanang kaso nga maisip nga positibo sa sistema. Pananglitan, gusto sa mga analista nga makadawat sa tanan nga mga kadudahang kaso alang sa pag-verify, ug gamay ra nga bahin niini ang mga pagpanglimbong. Ang sistema kinahanglan nga episyente nga ipresentar ang tanan nga mga kaso sa mga analista, bisan kung kini tinuod nga pagpanglimbong o kadudahang pamatasan lamang.
  • Ang data platform kinahanglan nga makahimo sa pagkuha sa makasaysayanon nga data set uban sa mga kalkulasyon nga namugna ug kalkulado sa langaw.
  • Sayon ug awtomatik nga i-deploy ang bisan unsang mga sangkap sa sistema sa labing menos tulo ka lainlaing palibot: produksiyon, eksperimento (beta) ug alang sa mga developer.
  • Ug ang katapusan apan dili labing gamay. Kinahanglan namon nga magtukod usa ka dato nga platform sa pagsulay sa pasundayag diin mahimo namon analisahon ang among mga modelo. [4]

mga pakisayran

  1. Unsa ang Augmented Intelligence?
  2. Pagpatuman sa API-Unang Disenyo nga Pamaagi
  3. Ang Kafka Nagbag-o Ngadto sa "Event Streaming Database"
  4. Pagsabot sa AUC - ROC Curve

Source: www.habr.com

Idugang sa usa ka comment