Di pîşeya endezyarê daneyê de jêhatîbûna herî daxwazkirî

Li gorî statîstîkên 2019, endezyar daneyê niha pîşeyek e ku daxwaza wê ji yên din zûtir mezin dibe. Endezyarek daneyê di rêxistinek de rolek krîtîk dilîze - afirandin û domandina lûle û databasên ku ji bo pêvajoyê, veguherandin û hilanîna daneyan têne bikar anîn. Berî her tiştî nûnerên vê pîşeyê hewceyê çi jêhatîbûnê ne? Ma navnîş ji ya ku ji zanyarên daneyê tê xwestin cûda ye? Hûn ê li ser van hemî ji gotara min fêr bibin.

Min valahiyên ji bo pozîsyona endezyar daneyê analîz kir ku ew di Çileya 2020-an de ne da ku fêm bikim ka kîjan jêhatîbûnên teknolojiyê yên herî populer in. Dûv re min encam bi statîstîkên li ser valahiyên ji bo pozîsyona zanyarê daneyê re berhev kir - û hin cûdahiyên balkêş derketin holê.

Bêyî pir pêşgotin, li vir deh teknolojiyên herî pêşîn hene ku bi gelemperî di posteyên kar de têne gotin:

Di pîşeya endezyarê daneyê de jêhatîbûna herî daxwazkirî

Navnîşa teknolojiyên di valahiyan de ji bo pozîsyona endezyar daneyê di sala 2020-an de

Ka em pê fêhm bikin.

Berpirsiyarên endezyarek daneyê

Îro, karê ku endezyarên daneyê dikin ji bo rêxistinan xwedî girîngiyek mezin e - ev kesên ku berpirsiyar in ku agahdarî hilînin û wê bi rengek wusa bînin ku karmendên din dikarin pê re bixebitin. Endezyarên daneyê boriyan çêdikin da ku daneyan ji gelek çavkaniyan biherikînin an berhev bikin. Dûv re lûleyên derxistin, veguherîn û barkirinê (bi gotinek din, pêvajoyên ETL) pêk tînin, ku daneyan ji bo karanîna bêtir guncantir dike. Piştî vê yekê, dane ji bo pêvajoyek kûrtir ji analîst û zanyarên daneyê re têne şandin. Di dawiyê de, dane rêwîtiya xwe di tablo, rapor û modelên fêrbûna makîneyê de bi dawî dike.

Ez li agahdarî digeriyam ku bihêle ez encamekê derxim ka kîjan teknolojiyên di xebata endezyarek daneyê de di wextê de herî zêde daxwaz in.

Rêbaz

Min ji sê malperên lêgerîna kar agahdarî berhev kir - SimplyHired, Birastî и Wehş û mêze kir ku di nivîsarên valahiyên ku ji niştecîhên Dewletên Yekbûyî re hatine armanc kirin, bi "endezyarê daneyê" re çi peyvên sereke hatine. Ji bo vî karî min du pirtûkxaneyên Python bikar anîn - daxwazên и Şorba xweş. Di nav keywordan de, min hem yên ku di navnîşa berê de ji bo analîzkirina valahiya ji bo pozîsyona zanyarê daneyê, hem jî yên ku min bi destan hilbijart dema ku pêşniyarên kar ji bo endezyarên daneyê dixwînim. LinkedIn ne di navnîşa çavkaniyan de bû, ji ber ku piştî hewildana min a paşîn a berhevkirina daneyan ez li wir hatim qedexe kirin.

Ji bo her keywordê, min rêjeya lêdanan ji hejmara giştî ya nivîsarên li ser her malperê ji hev cuda hesab kir, û dûv re navînî ji bo sê çavkaniyan hesab kir.

Encam

Li jêr sî şertên endezyariya daneyên teknîkî yên ku di nav her sê malperên kar de herî zêde puan hene.

Di pîşeya endezyarê daneyê de jêhatîbûna herî daxwazkirî

Û li vir heman hejmar hene, lê di forma tabloyê de têne pêşkêş kirin:

Di pîşeya endezyarê daneyê de jêhatîbûna herî daxwazkirî

Em bi rêzê herin.

Review encamên

Herdu SQL û Python di zêdetirî du-sêyan vebûnên kar ên hatine vekolandin de xuya dikin. Ev her du teknolojiyên ku pêşî li xwendinê digirin. python zimanek bernamesaziyê pir populer e ku ji bo xebata bi daneyan, çêkirina malperan û nivîsandina nivîsan tê bikar anîn. SQL Structured Query Language radiweste; ew standardek ku ji hêla komek zimanan ve hatî bicîh kirin vedihewîne û ji bo wergirtina daneyan ji databasên têkildar tê bikar anîn. Demek dirêj berê xuya bû û xwe îsbat kir ku pir berxwedêr e.

Di nîvê valahiyan de Spark tê gotin. Apache Spark "Motorek analîtîk a daneya mezin a yekbûyî ye ku bi modulên çêkirî yên ji bo weşan, SQL, fêrbûna makîneyê, û pêvajokirina grafikê ye." Ew bi taybetî di nav kesên ku bi databasên mezin re dixebitin populer e.

AWS bi qasî 45% ji posteyên kar xuya dike. Ew platformek komputera ewr e ku ji hêla Amazon ve hatî çêkirin; di nav hemî platformên ewr de xwedan para bazarê ya herî mezin e.
Piştre Java û Hadoop têne - ji bo birayê wan ji% 40-ê bêtir. Java zimanekî pir tê axaftin, şer-ceribandin e ku 2019 Lêkolîn Pêşvebirê Stack Overflow Di nav zimanên ku di nav bernamenûsan de dibin sedema tirsê de, bû dehemîn. Berevajî vê, Python duyemîn zimanê herî hezkirî bû. Zimanê Java ji hêla Oracle ve tê rêve kirin, û her tiştê ku hûn hewce ne di derheqê wê de zanibin dikare ji vê dîmena rûpela fermî ya ji Januaryile 2020 ve were fêm kirin.

Di pîşeya endezyarê daneyê de jêhatîbûna herî daxwazkirî

Mîna siwarbûna li makîneya demê ye
Apache Hadoop modela bernamekirinê MapReduce bi komên serverê re ji bo daneyên mezin bikar tîne. Niha ev model her ku diçe zêdetir tê terikandin.

Dûv re em Hive, Scala, Kafka û NoSQL dibînin - her yek ji van teknolojiyên di çaryeka valahiyên hatine şandin de têne destnîşan kirin. Apache Hive nermalava depoya daneyê ye ku "xwendin, nivîsandin û birêvebirina daneyên mezin ên ku li firotgehên belavkirî bi karanîna SQL-ê dijîn hêsan dike." Scala - zimanek bernamesaziyê ku dema ku bi daneyên mezin re dixebite bi çalak tê bikar anîn. Bi taybetî, Spark li Scala hate afirandin. Di rêza zimanên tirsnak de ku berê hatî behs kirin, Scala di rêza yazdehemîn de ye. Apache Kafka - platformek belavkirî ji bo hilberandina peyamên weşîn. Wekî navgînek guheztina daneyan pir populer.

Daneyên NoSQL xwe bi SQL re berevajî dikin. Ew ji hev cûda ne ku ew ne-têkilî, nesazkirî, û bi horizontî berz in. NoSQL hin populerbûn bi dest xistiye, lê gêjbûna ji bo nêzîkbûnê, tewra heya xala pêxemberîtiyê ku ew ê şûna SQL wekî paradîgmaya hilanînê ya serdest bigire, bi dawî bûye.

Berawirdkirina bi şertên di valahiyên zanyarên daneyê de

Li vir sî peyvên teknolojiyê yên herî gelemperî di nav kardêrên zanistiya daneyê de hene. Min ev navnîş bi heman awayê ku li jor ji bo endezyariya daneyê hatî destnîşan kirin wergirt.

Di pîşeya endezyarê daneyê de jêhatîbûna herî daxwazkirî

Ji bo pozîsyona zanyarê daneyê di sala 2020-an de behsa teknolojiyê di valahiyan de dike

Ger em li ser jimareya giştî biaxivin, li gorî kargêriya ku berê dihat hesibandin, 28% bêtir vala bûn (12 li hember 013). Ka em bibînin ka kîjan teknolojiyên di valahiyên zanyarên daneyê de ji endezyarên daneyê kêmtir hevpar in.

Di endezyariya daneyê de bêtir populer

Grafika jêrîn peyvên sereke yên bi cûdahiyek navînî ji% 10 mezintir an kêmtir ji -10% nîşan dide.

Di pîşeya endezyarê daneyê de jêhatîbûna herî daxwazkirî

Cûdahiya herî mezin di frekansa peyva key di navbera endezyar daneyê û zanyarê daneyê de

AWS zêdebûna herî girîng nîşan dide: di endezyariya daneyê de ew 25% bi rêkûpêktir ji zanistiya daneyê xuya dike (bi rêzê ve bi qasî 45% û 20% ji hejmara giştî ya valahiyan). Cûdahî diyar e!

Li vir heman daneyan di pêşandanek hinekî cûda de heye - di grafîkê de, encamên heman keywordê di valahiyên ji bo pozîsyona endezyar daneyê û zanyarê daneyê de li kêleka hev cih digirin.

Di pîşeya endezyarê daneyê de jêhatîbûna herî daxwazkirî

Cûdahiya herî mezin di frekansa peyva key di navbera endezyar daneyê û zanyarê daneyê de

Hebûna herî mezin a din a ku min destnîşan kir li Spark bû - endezyarek daneyê pir caran neçar e ku bi daneyên mezin re bixebite. Kafka di heman demê de ji sedî 20% zêde bû, ango hema çar carî li gorî encama valahiyên zanyarên daneyê. Veguheztina daneyê yek ji berpirsiyariyên sereke yên endezyarek daneyê ye. Di dawiyê de, hejmara behskirinê di warê endezyariya daneyê de ji bo Java, NoSQL, Redshift, SQL û Hadoop% 15 zêde bû.

Di endezyariya daneyê de kêmtir populer

Naha em bibînin ka kîjan teknolojiyên di valahiyên endezyarên daneyê de kêmtir populer in.
Kêmbûna herî tund li gorî sektora zanistiya daneyê pêk hat R: li wir ew bi qasî 56% ji valahiyan xuya bû, li vir - tenê di 17%. Şopgiran. R zimanek bernamesaziyê ye ku ji hêla zanyar û statîstîkvanan ve tê pejirandin, û heştemîn zimanê herî tirsnak li cîhanê ye.

SAS di heman demê de di cîhên vala de ji bo pozîsyona endezyar daneyê pir kêm kêm tê dîtin - cûdahî 14%. SAS zimanek xwedan e ku ji bo xebata bi statîstîk û daneyan re hatî çêkirin. Xala balkêş: li gorî encaman dadbar kirin lêkolîna min di vekirina kar de ji bo zanyarên daneyê, wê di van demên dawî de gelek zevî winda kir - ji her teknolojiyên din bêtir.

Hem di endezyariya daneyê û hem jî di zanistiya daneyê de daxwaz heye

Divê were zanîn ku heşt ji deh pozîsyonên yekem di her du koman de yek in. SQL, Python, Spark, AWS, Java, Hadoop, Hive û Scala hem ji bo pîşesaziyên endezyariya daneyê û hem jî ji bo pîşesaziyên zanistiya daneyê di deh yekem de cih girtin. Di grafika jêrîn de hûn dikarin panzdeh teknolojiyên herî populer ên di nav kardêrên endezyar daneyan de bibînin, û li tenişta wan nîşana wan a valahiyên ji bo zanyarên daneyê heye.

Di pîşeya endezyarê daneyê de jêhatîbûna herî daxwazkirî

pêşnîyarên

Ger hûn dixwazin bikevin nav endezyariya daneyê, ez ê ji we re şîret bikim ku hûn teknolojiyên jêrîn master bikin - ez wan bi rêza pêşîniya nêzikî navnîş dikim.

SQL fêr bibin. Ez berê xwe didim PostgreSQL ji ber ku ew çavkaniyek vekirî ye, di civakê de pir populer e, û di qonaxek mezinbûnê de ye. Hûn dikarin ji pirtûka My Memorable SQL fêr bibin ka meriv çawa ziman bikar tîne - guhertoya wê ya pîlot heye vir.

Master Python, her çend ne di asta herî hişk de be jî. My Memorable Python bi taybetî ji bo destpêkan hatî çêkirin. Ew dikare li ser kirîn Amazon, kopiyek elektronîkî an fizîkî, bijartina we, an di forma pdf an epub de dakêşin ser vê malperê.

Gava ku hûn bi Python-ê nas bikin, biçin pandayan, pirtûkxaneyek Python ku ji bo paqijkirin û hilanîna daneyan tê bikar anîn. Ger hûn armanc dikin ku hûn di pargîdaniyek de bixebitin ku jêhatîbûna nivîsandina bi Python hewce dike (û ev piraniya wan e), hûn dikarin pê ewle bin ku zanîna pandayan dê ji hêla xwerû ve were hesibandin. Ez niha rêbernameyek destpêkê ya xebata bi pandayan re diqedînim - hûn dikarin aboneyêda ku dema berdanê ji dest neçe.

Master AWS. Ger hûn dixwazin bibin endezyarek daneyê, hûn nekarin bêyî platformek ewr a di stûyê de bikin, û AWS ji wan re herî populer e. Kurs gelek alîkariya min kir Akademiya Linuxdema min dixwend endezyariya daneyê li ser Google Cloud, Ez difikirim ku ew ê li ser AWS jî materyalên baş hebin.

Ger we berê vê navnîşê temam kiriye û hûn dixwazin di çavên kardêran de wekî endezyarek daneyê bêtir mezin bibin, ez pêşniyar dikim ku Apache Spark ji bo xebata bi daneyên mezin re zêde bikin. Her çend lêkolîna min a li ser valahiyên zanyarên daneyê kêmbûnek eleqeyê nîşan da, di nav endezyarên daneyê de ew hîn jî hema hema di her duyemîn valahiyê de xuya dike.

Di dawiyê de

Ez hêvî dikim ku we ev nihêrîna teknolojiyên herî daxwazî ​​ji bo endezyarên daneyê kêrhatî dît. Ger hûn meraq dikin ka rewşa karê analîstê çawa ye, bixwînin gotara min a din. Endezyariya xweş!

Source: www.habr.com

Add a comment