Paggamit sa ubos nga code sa analytical nga mga plataporma

Minahal nga mga magbabasa, maayong adlaw!

Ang tahas sa pagtukod sa mga plataporma sa IT alang sa pagkolekta ug pag-analisar sa mga datos sa madugay o sa madali motungha alang sa bisan unsang kompanya kansang negosyo gibase sa usa ka modelo sa paghatud sa serbisyo nga gikarga sa intelektwal o paghimo sa mga teknikal nga komplikado nga mga produkto. Ang pagtukod sa mga platform sa analitikal usa ka komplikado ug makagugol sa oras nga buluhaton. Bisan pa, ang bisan unsang buluhaton mahimong pasimplehon. Niini nga artikulo gusto nakong ipaambit ang akong kasinatian sa paggamit sa mga himan nga ubos ang code aron makatabang sa paghimo og analytical nga mga solusyon. Kini nga kasinatian nakuha sa panahon sa pagpatuman sa daghang mga proyekto sa direksyon sa Big Data Solutions sa kompanya nga Neoflex. Sukad sa 2005, ang direksyon sa Big Data Solutions sa Neoflex nag-atubang sa mga isyu sa pagtukod sa mga bodega sa datos ug mga lanaw, pagsulbad sa mga problema sa pag-optimize sa katulin sa pagproseso sa impormasyon ug pagtrabaho sa usa ka pamaagi alang sa pagdumala sa kalidad sa datos.

Paggamit sa ubos nga code sa analytical nga mga plataporma

Walay usa nga makalikay sa mahunahunaon nga pagtipon sa huyang ug/o kusgan nga pagkahan-ay nga datos. Tingali bisan kung naghisgot kami bahin sa gagmay nga mga negosyo. Pagkahuman, kung nag-scale sa usa ka negosyo, ang usa ka nagsaad nga negosyante mag-atubang sa mga isyu sa pagpalambo sa usa ka programa sa pagkamaunongon, gusto nga analisahon ang pagka-epektibo sa mga punto sa pagbaligya, maghunahuna bahin sa gipunting nga advertising, ug malibog sa panginahanglan alang sa kauban nga mga produkto. . Sa una nga pagbanabana, ang problema mahimong masulbad "sa tuhod". Apan samtang nagtubo ang negosyo, ang pag-abot sa usa ka analitikal nga plataporma dili gihapon malikayan.

Bisan pa, sa unsang kaso mahimo’g ang mga buluhaton sa pag-analisa sa datos mahimong mga problema sa klase nga "Rocket Science"? Tingali sa higayon nga naghisgot kami bahin sa dako kaayo nga datos.
Aron mapasayon ​​ang Rocket Science, mahimo nimong kan-on ang elepante matag piraso.

Paggamit sa ubos nga code sa analytical nga mga plataporma

Kon mas discrete ug autonomous ang imong mga aplikasyon/serbisyo/microservices, mas sayon ​​para nimo, sa imong mga kauban ug sa tibuok negosyo ang paghilis sa elepante.

Hapit tanan sa among mga kliyente nakaabut sa kini nga postulate, nga gitukod pag-usab ang talan-awon base sa mga gawi sa engineering sa mga koponan sa DevOps.

Apan bisan sa usa ka "bulag, elepante" nga pagkaon, kita adunay usa ka maayo nga higayon sa "oversaturation" sa IT nga talan-awon. Niining higayona angayan nga mohunong, moginhawa ug motan-aw sa kilid low-code nga plataporma sa engineering.

Daghang mga developer ang nahadlok sa posibilidad sa usa ka patay nga katapusan sa ilang karera kung mobalhin gikan sa direkta nga pagsulat sa code padulong sa "pag-drag" nga mga arrow sa mga interface sa UI sa mga low-code system. Apan ang pag-abut sa mga himan sa makina wala magdala sa pagkawala sa mga inhenyero, apan nagdala sa ilang trabaho sa usa ka bag-ong lebel!

Atong hisgotan kon ngano.

Ang pag-analisar sa datos sa natad sa logistik, industriya sa telecom, panukiduki sa media, sektor sa pinansya kanunay nga nalangkit sa mosunod nga mga pangutana:

  • Ang katulin sa awtomatikong pagtuki;
  • Abilidad sa pagpahigayon sa mga eksperimento nga dili makaapekto sa nag-unang data sa produksyon dagan;
  • Kasaligan sa giandam nga datos;
  • Usba ang pagsubay ug pag-bersyon;
  • Data proveance, Data lineage, CDC;
  • Paspas nga paghatud sa mga bag-ong bahin sa palibot sa produksiyon;
  • Ug ang bantogan: ang gasto sa kalamboan ug suporta.

Kana mao, ang mga inhenyero adunay daghang daghang mga buluhaton sa taas nga lebel, nga mahimo’g makompleto nga adunay igo nga kahusayan pinaagi lamang sa paglimpyo sa ilang panimuot sa mga buluhaton sa pagpauswag sa ubos.

Ang mga kinahanglanon alang sa mga developer nga mobalhin sa usa ka bag-ong lebel mao ang ebolusyon ug digitalization sa negosyo. Ang bili sa developer usab nag-usab: adunay usa ka mahinungdanon nga kakulang sa mga developers nga mahimong isawsaw ang ilang mga kaugalingon sa mga konsepto sa negosyo nga automated.

Magdrowing kita og usa ka analohiya sa ubos nga lebel ug taas nga lebel sa programming nga mga pinulongan. Ang transisyon gikan sa ubos nga lebel nga mga pinulongan ngadto sa taas nga lebel usa ka transisyon gikan sa pagsulat sa "direkta nga mga direktiba sa pinulongan sa hardware" ngadto sa "direktiba sa pinulongan sa mga tawo". Kana mao, pagdugang sa pipila ka layer sa abstraction. Sa kini nga kaso, ang transisyon sa mga low-code platform gikan sa taas nga lebel sa programming language usa ka transisyon gikan sa "mga direktiba sa sinultian sa mga tawo" padulong sa "mga direktiba sa sinultian sa negosyo". Kung adunay mga developer nga nasubo niini nga kamatuoran, nan sila nasubo, tingali, sukad sa higayon nga ang Java Script natawo, nga naggamit sa array sorting functions. Ug kini nga mga gimbuhaton, siyempre, adunay pagpatuman sa software sa ilawom sa hood pinaagi sa ubang mga paagi sa parehas nga high-level nga programa.

Busa, ang ubos nga kodigo mao lamang ang dagway sa laing lebel sa abstraction.

Gipadapat nga kasinatian gamit ang low-code

Ang hilisgutan sa ubos nga code kay lapad kaayo, apan karon gusto nakong hisgutan ang praktikal nga paggamit sa "mga konsepto nga ubos ang code" gamit ang panig-ingnan sa usa sa among mga proyekto.

Ang Big Data Solutions division sa Neoflex mas espesyalista sa pinansyal nga sektor sa negosyo, pagtukod og mga bodega sa datos ug mga lanaw ug pag-automate sa nagkalain-laing pagtaho. Niini nga niche, ang paggamit sa ubos nga code dugay nang nahimong sumbanan. Lakip sa uban pang mga gamit nga ubos ang code, mahimo natong hisgutan ang mga himan alang sa pag-organisar sa mga proseso sa ETL: Informatica Power Center, IBM Datastage, Pentaho Data Integration. O Oracle Apex, nga naglihok isip usa ka palibot alang sa paspas nga pag-uswag sa mga interface alang sa pag-access ug pag-edit sa datos. Bisan pa, ang paggamit sa mga gamit sa pagpauswag sa ubos nga code dili kanunay nga naglambigit sa pagtukod og mga gipunting nga aplikasyon sa usa ka stack sa komersyal nga teknolohiya nga adunay klaro nga pagsalig sa vendor.

Gamit ang mga low-code nga mga plataporma, mahimo ka usab mag-organisar sa orkestrasyon sa mga agos sa datos, paghimo og mga platform sa syensya sa datos o, pananglitan, mga module alang sa pagsusi sa kalidad sa datos.

Usa sa gipadapat nga mga panig-ingnan sa kasinatian sa paggamit sa mga himan sa pagpalambo sa ubos nga code mao ang kolaborasyon tali sa Neoflex ug Mediascope, usa sa mga lider sa merkado sa panukiduki sa media sa Russia. Usa sa mga katuyoan sa negosyo sa kini nga kompanya mao ang paghimo sa mga datos nga gibase sa mga tig-anunsyo, mga plataporma sa Internet, mga channel sa TV, mga istasyon sa radyo, mga ahensya sa advertising ug mga tatak nga naghimog mga desisyon bahin sa pagpalit sa advertising ug pagplano sa ilang mga komunikasyon sa marketing.

Paggamit sa ubos nga code sa analytical nga mga plataporma

Ang panukiduki sa media usa ka lugar sa negosyo nga puno sa teknolohiya. Ang pag-ila sa mga han-ay sa video, pagkolekta sa datos gikan sa mga himan nga nag-analisar sa pagtan-aw, pagsukod sa kalihokan sa mga kapanguhaan sa web - kining tanan nagpasabot nga ang kompanya adunay daghang kawani sa IT ug dako nga kasinatian sa pagtukod sa mga solusyon sa analitikal. Apan ang exponential nga pag-uswag sa gidaghanon sa impormasyon, ang gidaghanon ug lain-laing mga tinubdan niini nagpugos sa industriya sa datos sa IT sa kanunay nga pag-uswag. Ang pinakayano nga solusyon sa pag-scale sa naglihok na nga platform sa analitikal nga Mediascope mahimong ang pagdugang sa kawani sa IT. Apan ang labi ka epektibo nga solusyon mao ang pagpadali sa proseso sa pag-uswag. Usa sa mga lakang nga nanguna niini nga direksyon mahimong ang paggamit sa mga low-code platform.

Sa panahon nga nagsugod ang proyekto, ang kompanya aduna nay naglihok nga solusyon sa produkto. Bisan pa, ang pagpatuman sa solusyon sa MSSQL dili hingpit nga makab-ot ang mga gilauman alang sa pagpaandar sa pag-scale samtang nagpadayon ang usa ka madawat nga gasto sa pag-uswag.

Ang tahas sa among atubangan tinuod nga ambisyoso - ang Neoflex ug Mediascope kinahanglan nga maghimo usa ka solusyon sa industriya nga wala’y usa ka tuig, ubos sa pagpagawas sa MVP sulod sa unang quarter sa petsa sa pagsugod.

Ang Hadoop technology stack gipili isip pundasyon sa pagtukod og bag-ong data platform base sa low-code computing. Ang HDFS nahimong sumbanan sa pagtipig sa datos gamit ang mga parquet file. Aron ma-access ang datos nga nahimutang sa plataporma, gigamit ang Hive, diin ang tanan nga magamit nga mga storefront gipresentar sa porma sa gawas nga mga lamesa. Ang loading data ngadto sa storage gipatuman gamit ang Kafka ug Apache NiFi.

Ang himan nga Lowe-code niini nga konsepto gigamit aron ma-optimize ang labing kusog nga buluhaton sa paghimo sa usa ka plataporma nga analitikal - ang tahas sa pagkalkula sa datos.

Paggamit sa ubos nga code sa analytical nga mga plataporma

Ang low-code Datagram tool gipili isip nag-unang mekanismo sa data mapping. Neoflex Datagram usa ka himan alang sa pagpalambo sa mga pagbag-o ug mga agos sa datos.
Gamit kini nga himan, mahimo nimo nga dili manu-mano ang pagsulat sa Scala code. Ang Scala code awtomatikong namugna gamit ang Model Driven Architecture nga pamaagi.

Ang usa ka klaro nga bentaha sa kini nga pamaagi mao ang pagpadali sa proseso sa pag-uswag. Bisan pa, dugang sa katulin, adunay usab mga mosunud nga bentaha:

  • Pagtan-aw sa sulod ug istruktura sa mga tinubdan/tigdawat;
  • Pagsubay sa gigikanan sa data flow nga mga butang ngadto sa tagsa-tagsa nga mga natad (lineage);
  • Partial nga pagpatuman sa mga pagbag-o uban ang pagtan-aw sa mga intermediate nga resulta;
  • Pagrepaso sa source code ug pag-adjust niini sa dili pa ipatuman;
  • Awtomatikong pag-validate sa mga pagbag-o;
  • Awtomatikong pag-download sa datos 1 sa 1.

Ang babag sa pagsulod sa mga solusyon nga ubos ang code alang sa paghimo og mga pagbag-o gamay ra: kinahanglan mahibal-an sa developer ang SQL ug adunay kasinatian sa pagtrabaho sa mga himan sa ETL. Angayan nga hisgutan nga ang mga generator sa pagbag-o nga gipadagan sa code dili mga himan sa ETL sa halapad nga kahulugan sa pulong. Ang mga gamit nga mubu nga code mahimong wala’y kaugalingon nga palibot sa pagpatuman sa code. Sa ato pa, ang namugna nga code ipatuman sa palibot nga naglungtad sa cluster bisan sa wala pa i-install ang low-code nga solusyon. Ug kini tingali usa pa nga dugang alang sa low-code karma. Tungod kay, susama sa usa ka tim nga ubos ang code, ang usa ka "klasiko" nga grupo mahimong magtrabaho nga nagpatuman sa pagpaandar, pananglitan, sa lunsay nga Scala code. Ang pagdala sa mga pag-uswag gikan sa duha ka mga koponan ngadto sa produksiyon mahimong yano ug hapsay.

Tingali angay nga matikdan nga dugang sa ubos nga code, adunay usab mga solusyon nga walay code. Ug sa ilang kinauyokan, lahi kini nga mga butang. Ang low-code nagtugot sa developer nga mas makabalda sa namugna nga code. Sa kaso sa Datagram, posible nga tan-awon ug i-edit ang nahimo nga Scala code; walay code mahimong dili makahatag sa ingon nga oportunidad. Kini nga kalainan mahinungdanon kaayo dili lamang sa mga termino sa pagka-flexible sa solusyon, kondili usab sa mga termino sa kahupayan ug kadasig sa trabaho sa mga inhenyero sa datos.

Solusyon nga arkitektura

Atong sulayan nga mahibal-an kung giunsa ang usa ka himan nga low-code makatabang sa pagsulbad sa problema sa pag-optimize sa katulin sa pagpalambo sa pag-andar sa pagkalkula sa datos. Una, atong tan-awon ang functional nga arkitektura sa sistema. Usa ka pananglitan niini nga kaso mao ang modelo sa produksiyon sa datos alang sa panukiduki sa media.

Paggamit sa ubos nga code sa analytical nga mga plataporma

Ang mga gigikanan sa datos sa among kaso lahi kaayo ug lainlain:

  • Ang mga metro sa mga tawo (TV meter) mga software ug hardware nga mga aparato nga nagbasa sa pamatasan sa gumagamit gikan sa mga respondents sa panel sa telebisyon - kinsa, kanus-a ug unsa nga channel sa TV ang gitan-aw sa panimalay nga miapil sa pagtuon. Ang gihatag nga kasayuran usa ka sapa sa mga agwat sa pagtan-aw sa broadcast nga nalambigit sa pakete sa media ug produkto sa media. Ang mga datos sa yugto sa pagkarga ngadto sa Data Lake mahimong madugangan sa demographic nga mga hiyas, geostratification, time zone ug uban pang impormasyon nga gikinahanglan sa pag-analisar sa pagtan-aw sa telebisyon sa usa ka partikular nga produkto sa media. Ang mga sukod nga gikuha mahimong magamit sa pag-analisar o pagplano sa mga kampanya sa advertising, pagtimbang-timbang sa kalihokan ug gusto sa mamiminaw, ug pag-compile sa broadcast network;
  • Ang datos mahimong maggikan sa mga sistema sa pag-monitor alang sa pag-stream sa mga sibya sa telebisyon ug pagsukod sa pagtan-aw sa sulud sa kapanguhaan sa video sa Internet;
  • Mga galamiton sa pagsukod sa palibot sa web, lakip ang site-centric ug user-centric meter. Ang data provider alang sa Data Lake mahimong usa ka research bar browser add-on ug usa ka mobile application nga adunay built-in nga VPN.
  • Ang datos mahimo usab nga gikan sa mga site nga nagkonsolida sa mga resulta sa pagpuno sa online nga mga pangutana ug ang mga resulta sa mga interbyu sa telepono sa mga survey sa kompanya;
  • Ang dugang nga pagpalambo sa data lake mahimong mahitabo pinaagi sa pag-download sa impormasyon gikan sa mga troso sa mga partner nga kompanya.

Ang pagpatuman sa as is loading gikan sa source system ngadto sa nag-unang staging sa hilaw nga datos mahimong organisado sa lain-laing mga paagi. Kung ang ubos nga code gigamit alang niini nga mga katuyoan, ang awtomatik nga paghimo sa mga script sa pagkarga base sa metadata posible. Sa kini nga kaso, dili kinahanglan nga moadto sa lebel sa pagpalambo sa gigikanan aron mapunting ang mga mapa. Aron ipatuman ang awtomatik nga pagkarga, kinahanglan natong magtukod og koneksyon sa tinubdan, ug dayon ipasabut sa loading interface ang listahan sa mga entidad nga i-load. Ang istruktura sa direktoryo sa HDFS awtomatiko nga himuon ug motakdo sa istruktura sa pagtipig sa datos sa gigikanan nga sistema.

Bisan pa, sa konteksto niini nga proyekto, nakahukom kami nga dili gamiton kini nga bahin sa low-code nga plataporma tungod sa kamatuoran nga ang Mediascope nga kompanya nagsugod na sa pagtrabaho sa paghimo sa susama nga serbisyo gamit ang Nifi + Kafka nga kombinasyon.

Angayan nga ipakita dayon nga kini nga mga himan dili mabaylo, apan komplementaryo. Ang Nifi ug Kafka makahimo sa pagtrabaho sa direkta (Nifi -> Kafka) ug sa reverse (Kafka -> Nifi) nga koneksyon. Alang sa plataporma sa panukiduki sa media, ang unang bersyon sa bundle gigamit.

Paggamit sa ubos nga code sa analytical nga mga plataporma

Sa among kaso, ang NayFi kinahanglan nga magproseso sa lainlaing mga lahi sa datos gikan sa mga sistema sa gigikanan ug ipadala kini sa Kafka broker. Sa kini nga kaso, ang mga mensahe gipadala sa usa ka piho nga hilisgutan sa Kafka gamit ang mga processor sa PublishKafka Nifi. Ang orkestra ug pagmentinar niini nga mga pipeline gihimo sa usa ka visual interface. Ang himan sa Nifi ug ang paggamit sa kombinasyon sa Nifi + Kafka mahimo usab nga tawgon nga usa ka low-code nga pamaagi sa pag-uswag, nga adunay gamay nga babag sa pagsulod sa mga teknolohiya sa Big Data ug gipadali ang proseso sa pagpalambo sa aplikasyon.

Ang sunod nga yugto sa pagpatuman sa proyekto mao ang pagdala sa detalyado nga datos sa usa ka semantic layer format. Kung ang usa ka entidad adunay makasaysayan nga mga hiyas, ang kalkulasyon gihimo sa konteksto sa partisyon nga gipangutana. Kung ang entidad dili makasaysayanon, nan mahimo nga opsyonal nga kalkulahon pag-usab ang tibuok nga sulod sa butang, o hingpit nga pagdumili sa pagkalkula niini nga butang (tungod sa kakulang sa mga pagbag-o). Niini nga yugto, ang mga yawe gihimo alang sa tanan nga mga entidad. Ang mga yawe gitipigan sa mga direktoryo sa Hbase nga katumbas sa master nga mga butang, nga adunay sulud nga sulat tali sa mga yawe sa analytical nga plataporma ug ang mga yawe gikan sa mga sistema sa gigikanan. Ang pagkonsolida sa atomic nga mga entidad giubanan sa pagpalambo sa mga resulta sa preliminary nga kalkulasyon sa analytical data. Ang balangkas alang sa pagkalkula sa datos mao ang Spark. Ang gihulagway nga gamit alang sa pagdala sa datos sa usa ka semantiko gipatuman usab base sa mga mapping gikan sa ubos nga code nga Datagram tool.

Ang target nga arkitektura nanginahanglan pag-access sa SQL sa datos alang sa mga tiggamit sa negosyo. Ang hive gigamit alang niini nga opsyon. Awtomatiko nga narehistro ang mga butang sa Hive kung mahimo nimo ang kapilian nga "Registr Hive Table" sa tool nga low-code.

Paggamit sa ubos nga code sa analytical nga mga plataporma

Pagkontrol sa dagan sa kalkulasyon

Ang Datagram adunay interface alang sa paghimo og mga disenyo sa dagan sa trabaho. Ang mga mapa mahimong ilunsad gamit ang Oozie scheduler. Sa stream developer interface, posible nga maghimo ug mga laraw para sa parallel, sequential, o execution-dependent nga mga pagbag-o sa datos. Adunay suporta alang sa mga script sa shell ug mga programa sa java. Posible usab nga gamiton ang Apache Livy server. Ang Apache Livy gigamit sa pagpadagan sa mga aplikasyon direkta gikan sa development environment.

Kung ang kompanya adunay kaugalingon nga orkestra sa proseso, posible nga gamiton ang REST API aron ma-embed ang mga mapping sa usa ka kasamtangan nga dagan. Pananglitan, kami adunay malampuson nga kasinatian sa pag-embed sa mga mapping sa Scala sa mga orkestra nga gisulat sa PLSQL ug Kotlin. Ang REST API sa ubos nga code nga himan naglakip sa mga operasyon sama sa pagmugna og usa ka executable nga tuig base sa mapping design, pagtawag og mapping, pagtawag og sequence of mappings, ug, siyempre, pagpasa sa mga parameter sa URL para magpadagan og mappings.

Kauban ni Oozie, posible nga mag-organisar og dagan sa pagkalkula gamit ang Airflow. Tingali dili ako magdugay sa pagtandi tali sa Oozie ug Airflow, apan moingon lang nga sa konteksto sa trabaho sa usa ka proyekto sa panukiduki sa media, ang pagpili nahulog pabor sa Airflow. Ang mga nag-unang argumento niining panahona mao ang usa ka mas aktibo nga komunidad nga nagpalambo sa produkto ug usa ka mas naugmad nga interface + API.

Maayo usab ang pag-agos sa hangin tungod kay gigamit niini ang minahal nga Python aron ihulagway ang mga proseso sa pagkalkula. Ug sa kinatibuk-an, wala'y daghan nga open source nga mga platform sa pagdumala sa workflow. Ang paglansad ug pagmonitor sa pagpatuman sa mga proseso (lakip ang usa ka Gantt chart) nagdugang lamang ug mga punto sa karma sa Airflow.

Ang format sa configuration file alang sa paglansad sa low-code solution mappings nahimo nang spark-submit. Kini nahitabo tungod sa duha ka rason. Una, ang spark-submit nagtugot kanimo sa direktang pagdagan sa usa ka jar file gikan sa console. Ikaduha, kini mahimong maglangkob sa tanan nga kinahanglan nga kasayuran aron ma-configure ang dagan sa trabaho (nga nagpadali sa pagsulat sa mga script nga nagmugna sa Dag).
Ang labing komon nga elemento sa Airflow workflow sa among kaso mao ang SparkSubmitOperator.

Gitugotan ka sa SparkSubmitOperator sa pagpadagan sa mga garapon - giputos nga mga mapa sa Datagram nga adunay mga pre-generated input parameters alang kanila.

Angayan nga isulti nga ang matag Airflow nga buluhaton nagdagan sa usa ka lahi nga hilo ug wala’y nahibal-an bahin sa ubang mga buluhaton. Busa, ang interaksyon tali sa mga buluhaton gihimo gamit ang mga control operator, sama sa DummyOperator o BranchPythonOperator.

Sa tingub, ang paggamit sa Datagram low-code nga solusyon inubanan sa universalization sa configuration files (pagporma Dag) mitultol ngadto sa usa ka mahinungdanon nga acceleration ug pagpayano sa proseso sa pagpalambo sa data loading dagan.

Pagkalkula sa showcase

Tingali ang pinaka intelektwal nga loaded stage sa produksyon sa analytical data mao ang lakang sa pagtukod showcases. Sa konteksto sa usa sa mga kalkulasyon sa datos sa kompanya sa panukiduki, sa kini nga yugto, ang datos gipamubu sa usa ka reperensiya nga sibya, nga gikonsiderar ang mga pagtul-id alang sa mga time zone ug nalambigit sa broadcast grid. Posible usab nga mag-adjust para sa lokal nga broadcast network (lokal nga balita ug advertising). Lakip sa ubang mga butang, kini nga lakang nagbungkag sa mga agwat sa padayon nga pagtan-aw sa mga produkto sa media base sa pag-analisar sa mga agwat sa pagtan-aw. Diha-diha dayon, ang mga kantidad sa pagtan-aw "gitimbang" base sa kasayuran bahin sa ilang kamahinungdanon (pagkalkula sa usa ka hinungdan sa pagtul-id).

Paggamit sa ubos nga code sa analytical nga mga plataporma

Ang lahi nga lakang sa pag-andam sa mga showcase mao ang pag-validate sa datos. Ang validation algorithm naglakip sa paggamit sa usa ka gidaghanon sa mga modelo sa siyensya sa matematika. Bisan pa, ang paggamit sa usa ka low-code nga plataporma nagtugot kanimo sa pagbungkag sa usa ka komplikado nga algorithm sa usa ka gidaghanon sa mga bulag nga makita nga mabasa nga mga mapa. Ang matag usa sa mga mapping naghimo sa usa ka pig-ot nga buluhaton. Ingon usa ka sangputanan, ang intermediate debugging, pag-log ug pagtan-aw sa mga yugto sa pag-andam sa datos posible.

Nakahukom nga i-discretize ang validation algorithm ngadto sa mosunod nga mga substages:

  • Pagtukod og mga regression sa mga dependency sa pagtan-aw sa TV network sa usa ka rehiyon nga adunay pagtan-aw sa tanang network sa rehiyon sulod sa 60 ka adlaw.
  • Pagkalkula sa mga nahabilin nga estudyante (mga pagtipas sa aktuwal nga mga kantidad gikan sa gitagna sa modelo sa pagbag-o) alang sa tanan nga mga punto sa pagbag-o ug alang sa kalkulado nga adlaw.
  • Usa ka pagpili sa anomalous nga rehiyon-network nga mga pares, diin ang estudyante nga balanse sa adlaw sa paghusay milapas sa naandan (gipiho sa mga setting sa operasyon).
  • Recalculation sa gitul-id nga studentized residual alang sa anomalous region-TV network pairs alang sa matag respondent nga nagtan-aw sa network sa rehiyon, pagtino sa kontribusyon niini nga respondent (ang kantidad sa kausaban sa studentized residual) kung wala iapil ang pagtan-aw niini nga respondent gikan sa sample .
  • Pangitaa ang mga kandidato kansang dili paglakip nagdala sa balanse sa estudyante sa adlaw sa suweldo balik sa normal.

Ang panig-ingnan sa ibabaw nagpamatuod sa pangagpas nga ang usa ka data engineer daghan na kaayo sa iyang hunahuna... Ug, kung kini usa gayud ka "engineer" ug dili usa ka "coder," nan ang kahadlok sa propesyonal nga pagkadaut sa paggamit sa ubos nga code nga mga himan siya kinahanglan nga sa katapusan mo-atras.

Unsa pa ang mahimo sa ubos nga code?

Ang kasangkaran sa paggamit sa usa ka himan nga ubos ang code alang sa pagproseso sa datos sa batch ug stream nga wala kinahanglana nga mano-mano ang pagsulat sa code sa Scala wala matapos didto.

Ang paggamit sa low-code sa pagpauswag sa datalake nahimo na nga sumbanan alang kanamo. Mahimo natong isulti nga ang mga solusyon nga gibase sa Hadoop stack nagsunod sa dalan sa pagpalambo sa mga classic DWHs base sa RDBMS. Ang mga gamit nga low-code sa Hadoop stack makasulbad sa mga buluhaton sa pagproseso sa datos ug ang tahas sa pagtukod sa katapusang mga interface sa BI. Dugang pa, kinahanglan nga matikdan nga ang BI mahimong magpasabot dili lamang sa representasyon sa datos, kondili usab sa ilang pag-edit sa mga tiggamit sa negosyo. Kanunay namong gigamit kini nga pag-andar kung nagtukod mga platform sa analitikal alang sa sektor sa pinansya.

Paggamit sa ubos nga code sa analytical nga mga plataporma

Lakip sa ubang mga butang, gamit ang low-code ug, labi na, ang Datagram, posible nga masulbad ang problema sa pagsubay sa gigikanan sa mga butang nga stream sa data nga adunay atomicity hangtod sa indibidwal nga mga natad (lineage). Aron mahimo kini, ang himan nga ubos ang code nagpatuman sa interface sa Apache Atlas ug Cloudera Navigator. Sa tinuud, ang developer kinahanglan nga magparehistro sa usa ka hugpong sa mga butang sa mga diksyonaryo sa Atlas ug i-refer ang mga rehistrado nga butang kung maghimo mga mapping. Ang mekanismo sa pagsubay sa gigikanan sa datos o pag-analisar sa mga dependency sa butang makadaginot ug daghang oras kung gikinahanglan ang pagpauswag sa mga algorithm sa pagkalkula. Pananglitan, kung nag-andam sa mga pinansyal nga pahayag, kini nga bahin nagtugot kanimo nga mas komportable nga mabuhi sa panahon sa mga pagbag-o sa lehislatibo. Human sa tanan, mas maayo nga atong masabtan ang inter-porma nga pagsalig sa konteksto sa mga butang sa usa ka detalyado nga layer, ang dili kaayo kita makasugat sa "kalit" nga mga depekto ug pagpakunhod sa gidaghanon sa mga reworks.

Paggamit sa ubos nga code sa analytical nga mga plataporma

Kalidad sa Data ug Ubos nga code

Ang laing buluhaton nga gipatuman sa ubos nga code nga himan sa Mediascope nga proyekto mao ang Data Quality class task. Ang usa ka espesyal nga bahin sa pagpatuman sa pipeline sa pag-verify sa datos alang sa proyekto sa kompanya sa panukiduki mao ang kakulang sa epekto sa pasundayag ug katulin sa dagan sa pagkalkula sa panguna nga datos. Aron makahimo sa pag-orkestrate sa independente nga mga pag-agos sa pag-verify sa datos, ang pamilyar na nga Apache Airflow gigamit. Ingon nga andam na ang matag lakang sa produksiyon sa datos, usa ka bulag nga bahin sa pipeline sa DQ ang gilunsad nga managsama.

Giisip nga maayong praktis ang pagmonitor sa kalidad sa datos gikan sa pagsugod niini sa analytical nga plataporma. Ang pagbaton og impormasyon mahitungod sa metadata, mahimo natong susihon ang pagsunod sa mga batakang kondisyon gikan sa higayon nga ang impormasyon mosulod sa nag-unang layer - dili null, pagpugong, langyaw nga mga yawe. Kini nga pag-andar gipatuman pinasikad sa awtomatikong namugna nga mga mapping sa kalidad sa datos nga pamilya sa Datagram. Ang paghimo sa code sa kini nga kaso gibase usab sa metadata sa modelo. Sa proyekto sa Mediascope, ang interface gihimo uban ang metadata sa produkto sa Enterprise Architect.

Pinaagi sa pagpares sa ubos nga code nga himan sa Enterprise Architect, ang mosunod nga mga tseke awtomatikong namugna:

  • Pagsusi sa presensya sa "null" nga mga kantidad sa mga natad nga adunay "dili null" modifier;
  • Pagsusi sa presensya sa mga duplicate sa nag-unang yawe;
  • Pagsusi sa langyaw nga yawe sa usa ka entidad;
  • Pagsusi sa pagkatalagsaon sa usa ka hilo base sa usa ka hugpong sa mga natad.

Alang sa mas komplikado nga mga pagsusi sa pagkaanaa ug kasaligan sa datos, usa ka mapping ang gihimo gamit ang Scala Expression, nga nagkuha isip input sa usa ka eksternal nga Spark SQL check code nga giandam sa mga analista sa Zeppelin.

Paggamit sa ubos nga code sa analytical nga mga plataporma

Siyempre, ang awtomatik nga paghimo sa mga tseke kinahanglan nga hinay-hinay nga makab-ot. Sulod sa gambalay sa gihulagway nga proyekto, kini giunhan sa mosunod nga mga lakang:

  • DQ gipatuman sa Zeppelin notebook;
  • DQ gitukod sa mapping;
  • DQ sa porma sa bulag nga dagkong mga mapping nga adunay usa ka tibuuk nga hugpong sa mga tseke alang sa usa ka lahi nga entidad;
  • Universal parameterized DQ mappings nga modawat sa impormasyon bahin sa metadata ug business checks isip input.

Tingali ang nag-unang bentaha sa paghimo sa usa ka parameterized check nga serbisyo mao ang pagkunhod sa oras nga gikinahanglan aron maihatag ang mga gamit sa palibot sa produksiyon. Ang mga bag-ong pagsusi sa kalidad mahimong makalikay sa klasiko nga sumbanan sa paghatud sa code nga dili direkta pinaagi sa pagpalambo ug pagsulay nga mga palibot:

  • Ang tanan nga mga pagsusi sa metadata awtomatik nga namugna kung ang modelo giusab sa EA;
  • Ang mga pagsusi sa pagkaanaa sa datos (pagtino sa presensya sa bisan unsang datos sa usa ka punto sa panahon) mahimong mamugna base sa usa ka direktoryo nga nagtipig sa gipaabot nga panahon sa pagpakita sa sunod nga piraso sa datos sa konteksto sa mga butang;
  • Ang mga pagsusi sa validation sa datos sa negosyo gihimo sa mga analista sa Zeppelin notebook. Gikan didto sila gipadala direkta sa DQ module setup tables sa production environment.

Wala’y peligro nga direktang ipadala ang mga script sa produksiyon. Bisan sa usa ka sayup sa syntax, ang labing kadaghan nga naghulga kanamo mao ang kapakyasan sa paghimo sa usa ka pagsusi, tungod kay ang dagan sa pagkalkula sa datos ug ang dagan sa paglansad sa kalidad sa pagsusi gibulag sa usag usa.

Sa esensya, ang serbisyo sa DQ permanente nga nagdagan sa palibot sa produksiyon ug andam nga magsugod sa trabaho niini sa higayon nga makita ang sunod nga piraso sa datos.

Kay sa usa ka konklusyon

Ang bentaha sa paggamit sa ubos nga code klaro. Ang mga developers dili kinahanglan sa pagpalambo sa aplikasyon gikan sa scratch. Ug ang usa ka programmer nga gipagawas gikan sa dugang nga mga buluhaton nagpatunghag mga resulta nga mas paspas. Ang katulin, sa baylo, nagpagawas sa dugang nga oras alang sa pagsulbad sa mga isyu sa pag-optimize. Busa, sa kini nga kaso, makasalig ka sa usa ka mas maayo ug mas paspas nga solusyon.

Siyempre, ang ubos nga code dili usa ka panacea, ug ang salamangka dili mahitabo sa iyang kaugalingon:

  • Ang industriya sa ubos nga code nag-agi sa usa ka "paglig-on" nga yugto, ug wala pa'y uniporme nga mga sumbanan sa industriya;
  • Daghang mga solusyon nga ubos ang code dili libre, ug ang pagpalit niini kinahanglan nga usa ka mahunahunaon nga lakang, nga kinahanglan buhaton uban ang bug-os nga pagsalig sa pinansyal nga mga benepisyo sa paggamit niini;
  • Daghang mga solusyon nga ubos ang code dili kanunay nga maayo sa GIT/SVN. O sila dili kombenyente nga gamiton kung ang namugna nga code gitago;
  • Kung gipalapdan ang arkitektura, mahimo’g kinahanglan nga dalisayon ​​ang solusyon nga low-code - nga, sa baylo, naghagit sa epekto sa "pagdugtong ug pagsalig" sa supplier sa solusyon nga ubos ang code.
  • Posible ang usa ka igo nga lebel sa seguridad, apan kini labi ka kusog sa pagtrabaho ug lisud nga ipatuman sa mga makina nga low-code system. Ang mga low-code nga plataporma kinahanglan nga pilion dili lamang sa prinsipyo sa pagpangita sa mga benepisyo gikan sa ilang paggamit. Kung nagpili, angay nga mangutana bahin sa pagkaanaa sa pag-andar alang sa kontrol sa pag-access ug pagdelegar / pag-uswag sa datos sa pag-ila sa lebel sa tibuuk nga talan-awon sa IT sa organisasyon.

Paggamit sa ubos nga code sa analytical nga mga plataporma

Bisan pa, kung nahibal-an nimo ang tanan nga mga kakulangan sa gipili nga sistema, ug ang mga benepisyo gikan sa paggamit niini, bisan pa, naa sa dominanteng kadaghanan, unya magpadayon sa gamay nga code nga wala’y kahadlok. Dugang pa, ang pagbalhin ngadto niini dili kalikayan - sama nga ang bisan unsang ebolusyon dili kalikayan.

Kung ang usa ka developer sa usa ka low-code nga plataporma naghimo sa iyang trabaho nga mas paspas kay sa duha ka developers nga walay low-code, nan kini naghatag sa kompanya og usa ka ulo nga pagsugod sa tanang bahin. Ang threshold sa pagsulod sa mga solusyon nga ubos ang code mas ubos kaysa sa "tradisyonal" nga mga teknolohiya, ug kini adunay positibo nga epekto sa isyu sa kakulang sa kawani. Kung gigamit ang mga gamit nga mubu nga code, posible nga mapadali ang interaksyon tali sa mga functional team ug maghimo mas paspas nga mga desisyon bahin sa pagkahusto sa gipili nga agianan sa panukiduki sa siyensya sa datos. Ang mga mubu nga lebel nga plataporma mahimo’g magmaneho sa digital nga pagbag-o sa usa ka organisasyon tungod kay ang mga solusyon nga gihimo masabtan sa mga dili teknikal nga espesyalista (ilabi na ang mga tiggamit sa negosyo).

Kung ikaw adunay higpit nga mga deadline, puno sa lohika sa negosyo, kakulang sa kahanas sa teknolohiya, ug kinahanglan nimo nga mapadali ang imong oras sa pagpamaligya, unya ang ubos nga code usa ka paagi aron matubag ang imong mga panginahanglan.

Dili ikalimod ang kamahinungdanon sa tradisyonal nga mga himan sa pag-uswag, apan sa daghang mga kaso, ang paggamit sa mga solusyon nga ubos ang code mao ang labing kaayo nga paagi aron madugangan ang kahusayan sa mga buluhaton nga gisulbad.

Source: www.habr.com

Idugang sa usa ka comment