Inxhinieri i të dhënave dhe shkencëtari i të dhënave: cili është ndryshimi?

Profesionet e shkencëtarit të të dhënave dhe inxhinierit të të dhënave shpesh ngatërrohen. Çdo kompani ka specifikat e veta të punës me të dhënat, qëllime të ndryshme për analizën e tyre dhe një ide të ndryshme se cili specialist duhet të merret me cilën pjesë të punës, prandaj secila ka kërkesat e veta. 

Le të kuptojmë se cili është ndryshimi midis këtyre specialistëve, çfarë problemesh biznesi zgjidhin, çfarë aftësish kanë dhe sa fitojnë. Materiali doli të ishte i madh, ndaj e ndamë në dy botime.

Në artikullin e parë, Elena Gerasimova, drejtuese e fakultetit "Shkenca e të Dhënave dhe Analiza" në Netology, tregon se cili është ndryshimi midis një shkencëtari të të dhënave dhe një inxhinieri të të dhënave dhe me cilat mjete punojnë ata.

Si ndryshojnë rolet e inxhinierëve dhe shkencëtarëve

Një inxhinier i të dhënave është një specialist i cili, nga njëra anë, zhvillon, teston dhe mirëmban infrastrukturën e të dhënave: bazat e të dhënave, sistemet e ruajtjes dhe përpunimit masiv. Nga ana tjetër, ky është ai që pastron dhe "kreh" të dhënat për t'u përdorur nga analistë dhe shkencëtarë të të dhënave, domethënë krijon tubacione për përpunimin e të dhënave.

Data Scientist krijon dhe trajnon modele parashikuese (dhe të tjera) duke përdorur algoritme të mësimit të makinerive dhe rrjete nervore, duke ndihmuar bizneset të gjejnë modele të fshehura, të parashikojnë zhvillimet dhe të optimizojnë proceset kryesore të biznesit.

Dallimi kryesor midis një shkencëtari të të dhënave dhe një inxhinieri të të dhënave është se ata zakonisht kanë qëllime të ndryshme. Të dyja punojnë për të siguruar që të dhënat të jenë të aksesueshme dhe me cilësi të lartë. Por një shkencëtar i të dhënave gjen përgjigjet për pyetjet e tij dhe teston hipotezat në një ekosistem të dhënash (për shembull, bazuar në Hadoop), dhe një Inxhinier i të Dhënave krijon një tubacion për servisimin e një algoritmi të mësimit të makinës të shkruar nga një shkencëtar i të dhënave në një grupim Spark brenda të njëjtit ekosistem. 

Një inxhinier i të dhënave i sjell vlerë një biznesi duke punuar si pjesë e një ekipi. Detyra e tij është të veprojë si një lidhje e rëndësishme midis pjesëmarrësve të ndryshëm: nga zhvilluesit tek konsumatorët e biznesit të raportimit, dhe të rrisë produktivitetin e analistëve, nga marketingu dhe produkti te BI. 

Një shkencëtar i të dhënave, përkundrazi, merr një pjesë aktive në strategjinë e kompanisë dhe nxjerrjen e njohurive, marrjen e vendimeve, zbatimin e algoritmeve të automatizimit, modelimin dhe gjenerimin e vlerës nga të dhënat.
Inxhinieri i të dhënave dhe shkencëtari i të dhënave: cili është ndryshimi?

Puna me të dhëna i nënshtrohet parimit GIGO (garbage in - garbage out): nëse analistët dhe shkencëtarët e të dhënave merren me të dhëna të papërgatitura dhe potencialisht të pasakta, atëherë rezultatet edhe duke përdorur algoritmet më të sofistikuara të analizës do të jenë të pasakta. 

Inxhinierët e të dhënave e zgjidhin këtë problem duke ndërtuar tubacione për përpunimin, pastrimin dhe transformimin e të dhënave dhe duke lejuar shkencëtarët e të dhënave të punojnë me të dhëna me cilësi të lartë. 

Ka shumë mjete në treg për të punuar me të dhëna që mbulojnë çdo fazë: nga shfaqja e të dhënave deri te prodhimi te një panel kontrolli për bordin e drejtorëve. Dhe është e rëndësishme që vendimi për përdorimin e tyre të merret nga një inxhinier - jo sepse është në modë, por sepse ai do të ndihmojë vërtet punën e pjesëmarrësve të tjerë në proces. 

Në mënyrë konvencionale: nëse një kompani duhet të krijojë lidhje midis BI dhe ETL - ngarkimi i të dhënave dhe përditësimi i raporteve, këtu është një bazë tipike e trashëgimisë me të cilën do të duhet të merret një Inxhinier i të Dhënave (është mirë nëse ka edhe një arkitekt në ekip).

Përgjegjësitë e një inxhinieri të të dhënave

  • Zhvillimi, ndërtimi dhe mirëmbajtja e infrastrukturës së përpunimit të të dhënave.
  • Trajtimi i gabimeve dhe krijimi i tubacioneve të besueshme të përpunimit të të dhënave.
  • Sjellja e të dhënave të pastrukturuara nga burime të ndryshme dinamike në formën e nevojshme për punën e analistëve.
  • Dhënia e rekomandimeve për të përmirësuar konsistencën dhe cilësinë e të dhënave.
  • Sigurimi dhe mirëmbajtja e arkitekturës së të dhënave të përdorur nga shkencëtarët e të dhënave dhe analistët e të dhënave.
  • Përpunoni dhe ruani të dhënat në mënyrë të vazhdueshme dhe efikase në një grup të shpërndarë prej dhjetëra ose qindra serverësh.
  • Vlerësoni kompromiset teknike të mjeteve për të krijuar arkitektura të thjeshta por të fuqishme që mund t'i mbijetojnë ndërprerjes.
  • Kontrolli dhe mbështetja e rrjedhave të të dhënave dhe sistemeve të lidhura me to (vendosja e monitorimit dhe sinjalizimeve).

Ekziston një specializim tjetër brenda trajektores së Inxhinierit të të Dhënave - inxhinieri ML. Me pak fjalë, këta inxhinierë specializohen në sjelljen e modeleve të mësimit të makinerive në zbatim dhe përdorim industrial. Shpesh, një model i marrë nga një shkencëtar i të dhënave është pjesë e një studimi dhe mund të mos funksionojë në kushte luftarake.

Përgjegjësitë e një shkencëtari të të dhënave

  • Nxjerrja e veçorive nga të dhënat për të aplikuar algoritmet e mësimit të makinerive.
  • Përdorimi i mjeteve të ndryshme të mësimit të makinerive për të parashikuar dhe klasifikuar modelet në të dhëna.
  • Përmirësimi i performancës dhe saktësisë së algoritmeve të mësimit të makinerive duke akorduar dhe optimizuar algoritmet.
  • Formimi i hipotezave "të forta" në përputhje me strategjinë e kompanisë që duhet të testohen.

Si Inxhinieri i të Dhënave ashtu edhe Shkencëtari i të Dhënave ndajnë një kontribut të prekshëm në zhvillimin e një kulture të dhënash, përmes së cilës një kompani mund të gjenerojë fitime shtesë ose të zvogëlojë kostot.

Me cilat gjuhë dhe mjete punojnë inxhinierët dhe shkencëtarët?

Sot, pritshmëritë për shkencëtarët e të dhënave kanë ndryshuar. Më parë, inxhinierët mblidhnin pyetje të mëdha SQL, shkruanin manualisht MapReduce dhe përpunonin të dhëna duke përdorur mjete të tilla si Informatica ETL, Pentaho ETL, Talend. 

Në vitin 2020, një specialist nuk mund të bëjë pa njohuri për Python dhe mjetet moderne të llogaritjes (për shembull, Airflow), të kuptuarit e parimeve të punës me platformat cloud (duke i përdorur ato për të kursyer në harduer, duke respektuar parimet e sigurisë).

SAP, Oracle, MySQL, Redis janë mjete tradicionale për inxhinierët e të dhënave në kompani të mëdha. Ato janë të mira, por kostoja e licencave është aq e lartë sa të mësosh të punosh me to ka kuptim vetëm në projektet industriale. Në të njëjtën kohë, ekziston një alternativë falas në formën e Postgres - është falas dhe i përshtatshëm jo vetëm për trajnim. 

Inxhinieri i të dhënave dhe shkencëtari i të dhënave: cili është ndryshimi?
Historikisht, kërkesat për Java dhe Scala gjenden shpesh, megjithëse me zhvillimin e teknologjive dhe qasjeve, këto gjuhë zbehen në sfond.

Sidoqoftë, BigData e fortë: Hadoop, Spark dhe pjesa tjetër e kopshtit zoologjik nuk është më një parakusht për një inxhinier të dhënash, por një lloj mjetesh për zgjidhjen e problemeve që nuk mund të zgjidhen nga ETL tradicionale. 

Tendenca janë shërbimet për përdorimin e mjeteve pa njohuri për gjuhën në të cilën janë shkruar (për shembull, Hadoop pa njohuri të Java), si dhe ofrimi i shërbimeve të gatshme për përpunimin e të dhënave të transmetimit (njohja e zërit ose njohja e imazhit në video ).

Zgjidhjet industriale nga SAS dhe SPSS janë të njohura, ndërsa Tableau, Rapidminer, Stata dhe Julia përdoren gjithashtu gjerësisht nga shkencëtarët e të dhënave për detyrat lokale.

Inxhinieri i të dhënave dhe shkencëtari i të dhënave: cili është ndryshimi?
Aftësia për të ndërtuar vetë tubacione u shfaq tek analistët dhe shkencëtarët e të dhënave vetëm disa vjet më parë: për shembull, tashmë është e mundur të dërgohen të dhëna në një ruajtje të bazuar në PostgreSQL duke përdorur skriptet relativisht të thjeshta. 

Në mënyrë tipike, përdorimi i tubacioneve dhe strukturave të integruara të të dhënave mbetet përgjegjësi e inxhinierëve të të dhënave. Por sot, tendenca për specialistë në formë T-je me kompetenca të gjera në fusha të ngjashme është më e fortë se kurrë, sepse mjetet janë duke u thjeshtuar vazhdimisht.

Pse Inxhinieri i të Dhënave dhe Shkencëtari i të Dhënave punojnë së bashku

Duke punuar ngushtë me inxhinierët, shkencëtarët e të dhënave mund të fokusohen në anën e kërkimit, duke krijuar algoritme të mësimit të makinerive të gatshme për prodhim.
Dhe inxhinierët duhet të fokusohen në shkallëzueshmërinë, ripërdorimin e të dhënave dhe sigurimin që tubacionet e hyrjes dhe daljes së të dhënave në çdo projekt individual të përputhen me arkitekturën globale.

Kjo ndarje e përgjegjësive siguron qëndrueshmëri ndërmjet ekipeve që punojnë në projekte të ndryshme të mësimit të makinerive. 

Bashkëpunimi ndihmon në krijimin e produkteve të reja në mënyrë efikase. Shpejtësia dhe cilësia arrihen përmes një ekuilibri midis krijimit të një shërbimi për të gjithë (ruajtje globale ose integrimi i tabelave) dhe zbatimit të çdo nevoje ose projekti specifik (tubacioni shumë i specializuar, lidhja e burimeve të jashtme). 

Puna e ngushtë me shkencëtarët dhe analistët e të dhënave i ndihmon inxhinierët të zhvillojnë aftësi analitike dhe kërkimore për të shkruar kode më të mira. Ndarja e njohurive midis përdoruesve të magazinës dhe liqenit të të dhënave përmirësohet, duke i bërë projektet më të shkathët dhe duke ofruar rezultate më të qëndrueshme afatgjata.

Në kompanitë që synojnë të zhvillojnë një kulturë të punës me të dhëna dhe të ndërtojnë procese biznesi bazuar në to, Data Scientist dhe Data Engineer plotësojnë njëri-tjetrin dhe krijojnë një sistem të plotë të analizës së të dhënave. 

Në artikullin vijues do të flasim se çfarë lloj edukimi duhet të ketë një Inxhinier i të Dhënave dhe Shkencëtarët e të Dhënave, çfarë aftësish duhet të zhvillojnë dhe si funksionon tregu.

Nga redaktorët e Netology

Nëse jeni duke kërkuar në profesionin e Inxhinierit të të Dhënave ose Shkencëtarit të të Dhënave, ju ftojmë të studioni programet tona të kursit:

Burimi: www.habr.com

Shto një koment