Afirandina pergalek otomatîkî ya ji bo şerê li dijî dagirkeran li ser malperê (xapandin)

Nêzîkî şeş mehên dawîn ez pergalek ji bo şerkirina sextekariyê (çalakiya xapînok, xapandin, hwd.) ava dikim bêyî ku binesaziyek destpêkê ji bo vê yekê hebe. Ramanên îroyîn ên ku me di pergala xwe de dîtine û bicîh anîne ji me re dibe alîkar ku gelek çalakiyên xapînok tespît û analîz bikin. Di vê gotarê de, ez dixwazim bêyî ku têkevim beşa teknîkî, behsa prensîbên ku me şopandin û me çi kir ji bo gihîştina rewşa heyî ya pergala xwe bikim.

Prensîbên pergala me

Gava ku hûn peyvên wekî "otomatîk" û "sextekarî" dibihîzin, hûn bi îhtîmalek mezin dest bi ramana fêrbûna makîneyê, Apache Spark, Hadoop, Python, Airflow, û teknolojiyên din ên ji ekosîstema Weqfa Apache û qada Zanistiya Daneyê dikin. Ez difikirim ku aliyek karanîna van amûran heye ku bi gelemperî nayê behs kirin: ew di pergala pargîdaniya we de hin şertan hewce dikin berî ku hûn dest bi karanîna wan bikin. Bi kurtasî, hûn hewceyê platformek daneya pargîdanî ya ku gol û depoyek daneyê vedihewîne hewce dike. Lê heke hûn ne xwediyê platformek wusa bin û hîn jî hewce ne ku vê pratîkê pêş bixin? Prensîbên jêrîn, yên ku ez li jêr parve dikim, ji me re bûne alîkar ku em bigihîjin nuqteyek ku em dikarin li ser baştirkirina ramanên xwe bisekinin û ne ku em hewl bidin ku yeka ku kar dike bibînin. Lêbelê, ev ne plansaziyek projeyê ye. Ji aliyê teknolojî û berhemê ve hê jî di planê de gelek tişt hene.

Prensîp 1: Nirxa Karsaziya Pêşîn

Em "nirxa karsaziyê" danî pêşiya hemû hewldanên xwe. Bi gelemperî, her pergalek analîzkirina otomatîkî ji koma pergalên tevlihev e ku xwedan astek bilind a otomatîkî û tevliheviya teknîkî ne. Afirandina çareseriyek bêkêmasî heke hûn wê ji sifrê biafirînin dê gelek dem bigire. Me biryar da ku em nirxa karsaziyê ya pêşîn û temamiya teknolojîk ya duyemîn deynin. Di jiyana rast de, ev tê vê wateyê ku em teknolojiyên pêşkeftî wekî dogma qebûl nakin. Em teknolojiya ku di vê demê de ji bo me çêtirîn dixebite hilbijêrin. Bi demê re, dibe ku xuya bibe ku em neçar in ku hin modulan ji nû ve bicîh bikin. Ev lihevhatina me qebûl kir.

Prensîb 2: Zehmetiya zêdekirî

Ez bet dikim ku pir kesên ku bi kûrahî di pêşkeftina çareseriyên fêrbûna makîneyê de ne têkildar in dibe ku bifikirin ku şûna mirovan armanc e. Bi rastî, çareseriyên fêrbûna makîneyê ji bêkêmasî dûr in û tenê di hin deveran de veguheztin gengaz e. Me ev raman ji destpêkê ve ji ber çend sedeman red kir: Daneyên nehevseng ên li ser çalakiya xapînok û nebûna peydakirina navnîşek berfireh a taybetmendiyan ji bo modelên fêrbûna makîneyê. Berevajî vê, me vebijarka îstîxbarata pêşkeftî hilbijart. Ev têgehek alternatîf a îstîxbarata sûnî ye ku balê dikişîne ser rola piştgirî ya AI-ê, tekez dike ku teknolojiyên cognitive bi mebesta zêdekirina îstîxbarata mirovî ne li şûna wê ye. [1]

Ji ber vê yekê, pêşxistina çareseriyek fêrbûna makîneya bêkêmasî ji destpêkê ve dê hewildanek mezin hewce bike, ku dê çêkirina nirxê ji bo karsaziya me dereng bixe. Me biryar da ku di bin rêberiya pisporên domaina xwe de pergalek bi aliyek fêrbûna makîneyê ya ku her ku diçe mezin dibe ava bikin. Beşa dijwar a pêşxistina pergalek wusa ev e ku ew neçar e ku ji analîstên me re dozan peyda bike ne tenê di warê ka ew çalakiya xapînok e an na. Bi gelemperî, her anomalî di behreya xerîdar de dozek gumanbar e ku pêdivî ye ku pispor lêkolîn bikin û bi rengekî bersiv bidin. Tenê beşek ji van dozên hatine ragihandin bi rastî dikarin wekî sextekarî werin dabeş kirin.

Prensîb 3: Platforma Rich Analytics

Beşa herî dijwar a pergala me verastkirina dawî-bi-dawî ya xebata pergalê ye. Divê analîst û pêşdebiran bi hemî pîvanên ku ji bo analîzê têne bikar anîn bi hêsanî daneyên daneyên dîrokî bistînin. Wekî din, platforma daneyê divê rêyek hêsan peyda bike ku komek metrîkên heyî bi yên nû re temam bike. Pêvajoyên ku em diafirînin, û ev ne tenê pêvajoyên nermalavê ne, divê rê bidin me ku em bi hêsanî demên berê ji nû ve hesab bikin, metrîkên nû lê zêde bikin û pêşbîniya daneyê biguhezînin. Em dikarin vê yekê bi berhevkirina hemî daneyên ku pergala hilberîna me diafirîne bi dest bixin. Di vê rewşê de, dane hêdî hêdî dê bibe xemgîniyek. Pêdivî ye ku em hejmareke mezin a daneyên ku em bikar neynin hilînin û wê biparêzin. Di senaryoyek weha de, dane dê bi demê re bêtir û bêtir bêbandor bibin, lê dîsa jî ji bo birêvebirina wê hewildanên me hewce dike. Ji bo me, berhevkirina daneyan ne wate bû, ji ber vê yekê me biryar da ku em nêzîkatiyek cûda bigirin. Me biryar da ku em dikanên daneya rast-dem-ê li dora saziyên mebest ên ku em dixwazin dabeş bikin birêxistin bikin, û tenê daneyên ku destûrê dide me ku em serdemên herî dawî û têkildar kontrol bikin hilînin. Pirsgirêka vê hewildanê ev e ku pergala me heterojen e, digel gelek firotgehên daneyê û modulên nermalavê yên ku hewceyê plansaziyek baldar e ku bi rengek domdar bixebite.

Têgehên sêwirana pergala me

Di pergala me de çar hêmanên sereke hene: Pergala hilgirtin, hesabkirin, analîzkirina BI û pergala şopandinê. Ew ji armancên taybetî, veqetandî re xizmetê dikin, û em wan bi şopandina nêzîkatiyên sêwirana taybetî ve îzole dikin.

Afirandina pergalek otomatîkî ya ji bo şerê li dijî dagirkeran li ser malperê (xapandin)

design-based peymana

Berî her tiştî, me li hev kir ku pêkhate tenê xwe bispêrin hin strukturên daneyê (peymanên) ku di navbera wan de derbas dibin. Ev yek yekbûna di navbera wan de hêsan dike û pêkhateyek (û rêzek) taybetî ya pêkhateyan ferz nake. Mînakî, di hin rewşan de ev yek dihêle ku em rasterast pergala wergirtinê bi pergala şopandina hişyariyê re yek bikin. Di rewşek weha de, ev ê li gorî peymana hişyariyê ya lihevhatî were kirin. Ev tê vê wateyê ku her du pêkhate dê bi karanîna peymanek ku her pêkhateyek din dikare bikar bîne yekgirtî bin. Em ê peymanek pêvek zêde nekin da ku ji pergala têketinê hişyariyan li pergala şopandinê zêde bikin. Ev nêzîkatî pêdivî bi karanîna hejmareke hindiktirîn a peymanan heye û pergalê û ragihandinê hêsan dike. Di bingeh de, em nêzîkatiyek bi navê "Sêwirana Pêşîn a Peymana" digirin û wê li ser girêbestên streaming bicîh dikin. [2]

Li her derê diherike

Di sîstemekê de rizgarkirin û birêvebirina dewletê wê di pêkanîna wê de bibe sedema aloziyan. Bi gelemperî, dewlet divê ji her pêkhateyê bigihîje, divê ew domdar be û nirxa herî heyî di nav hemî pêkhatan de peyda bike, û divê bi nirxên rast pêbawer be. Wekî din, girtina bangên hilanîna domdar ji bo wergirtina rewşa herî dawî dê hejmara operasyonên I/O û tevliheviya algorîtmayên ku di lûleyên meya rast-dem de têne bikar anîn zêde bike. Ji ber vê yekê, me biryar da ku heke gengaz be, hilanîna dewletê bi tevahî ji pergala xwe derxînin. Ev nêzîkatî hewce dike ku hemî daneyên pêwîst di bloka daneya (peyam) ya hatî veguheztin de bêne bicîh kirin. Mînakî, heke hewce bike ku em jimara giştî ya hin çavdêriyan (hejmara operasyonan an dozên bi hin taybetmendiyan) bihejmêrin, em wê di bîranînê de hesab dikin û rêjeyek ji van nirxan çêdikin. Modulên girêdayî dê dabeşkirin û berhevkirinê bikar bînin da ku tîrêjê li saziyan veqetînin û li ser nirxên herî dawî bixebitin. Vê nêzîkatiyê hewcedariya hilanîna dîskê ya domdar ji bo daneyên wusa ji holê rakir. Pergala me Kafka wekî brokerek peyamê bikar tîne û ew dikare bi KSQL re wekî databasek were bikar anîn. [3] Lê bikaranîna wê dê çareseriya me bi Kafka re bi giranî girêbida, û me biryar da ku em wê bikar neynin. Nêzîkatiya ku me hilbijart dihêle ku em Kafka bi brokerek peyamek din veguherînin bêyî guhertinên navxweyî yên mezin ên pergalê.

Ev têgeh nayê wê wateyê ku em hilanîna dîskê û databasan bikar neynin. Ji bo ceribandin û analîzkirina performansa pergalê, pêdivî ye ku em hejmareke girîng a daneyan li ser dîskê hilînin ku pîvan û rewşên cihêreng temsîl dike. Li vir xala girîng ev e ku algorîtmayên dema rast bi daneyên wusa ve girêdayî ne. Di pir rewşan de, em daneyên hilanînê ji bo analîzkirina negirêdayî, debugkirin û şopandina doz û encamên taybetî yên ku pergalê hildiberîne bikar tînin.

Pirsgirêkên pergala me

Hin pirsgirêk hene ku me heta astekê çareser kirine, lê ji wan re çareseriyên bifikartir hewce dikin. Naha ez tenê dixwazim li vir behsa wan bikim ji ber ku her xal hêjayî gotara xwe ye.

  • Em hîn jî hewce ne ku pêvajo û polîtîkayên ku piştgirî didin berhevkirina daneyên watedar û têkildar ên ji bo analîz, vedîtin û lêgerîna xweya daneya otomatîkî diyar bikin.
  • Tevhevkirina analîzên mirovî di pêvajoya sazkirina otomatîkî ya pergalê de encam dide ku wê bi daneyên herî dawî nûve bike. Ev ne tenê nûvekirina modela me ye, lê di heman demê de pêvajoyên me jî nûve dike û têgihiştina me ya daneyên me baştir dike.
  • Dîtina hevsengiyek di navbera nêzîkatiya diyarker a IF-ELSE û ML de. Kesek got, "ML amûrek ji bo bêhêvî ye." Ev tê vê wateyê ku hûn ê bixwazin ML-ê bikar bînin dema ku hûn êdî fêm nakin ka meriv çawa algorîtmayên xwe xweşbîn û çêtir dike. Li aliyê din, nêzîkatiya determînîst rê nade ku anomaliyên ku nehatine pêşbînîkirin werin tespîtkirin.
  • Ji bo ceribandina hîpotezên xwe an têkiliyên di navbera metrîkên di daneyê de pêdivî bi rêyek hêsan heye.
  • Pêdivî ye ku pergalê çend astên encamên erênî yên rastîn hebe. Dozên sextekariyê tenê perçeyek ji hemî dozan in ku dikarin ji bo pergalê erênî bêne hesibandin. Mînakî, analîst dixwazin hemî dozên gumanbar ji bo verastkirinê bistînin, û tenê beşek piçûk ji wan sextekar in. Pêdivî ye ku pergal bi rengek bikêrhatî hemî dozan pêşkêşî analîstan bike, bêyî ku ew sextekariyek rastîn e an tenê tevgerek gumanbar e.
  • Pêdivî ye ku platforma daneyê bikaribe bi hesabên ku di firînê de têne hilberandin û têne hesibandin de berhevokên daneya dîrokî vegerîne.
  • Bi hêsanî û bixweber yek ji hêmanên pergalê bi kêmî ve sê hawîrdorên cihêreng bicîh bikin: hilberîn, ceribandin (beta) û ji bo pêşdebiran.
  • Û dawî lê ne bi kêmanî. Pêdivî ye ku em platformek ceribandina performansa dewlemend ava bikin ku li ser wê em dikarin modelên xwe analîz bikin. [4]

references

  1. Augmented Intelligence çi ye?
  2. Pêkanîna Methodolojiya Sêwirana API-Yekemîn
  3. Kafka Veguhere "Daneyên Vekêşana Bûyeran"
  4. Fêmkirina AUC - ROC Curve

Source: www.habr.com

Add a comment