ทักษะที่เป็นที่ต้องการมากที่สุดในวิชาชีพวิศวกรข้อมูล

ตามที่ สถิติปี 2019ปัจจุบัน Data Engineer เป็นอาชีพที่มีความต้องการเติบโตเร็วกว่าอาชีพอื่นๆ วิศวกรข้อมูลมีบทบาทสำคัญในองค์กร - การสร้างและบำรุงรักษาไปป์ไลน์และฐานข้อมูลที่ใช้ในการประมวลผล แปลง และจัดเก็บข้อมูล ตัวแทนของอาชีพนี้จำเป็นต้องมีทักษะอะไรบ้างเป็นอันดับแรก? รายการนี้แตกต่างจากข้อกำหนดของนักวิทยาศาสตร์ข้อมูลหรือไม่? คุณจะได้เรียนรู้ทั้งหมดนี้จากบทความของฉัน

ฉันวิเคราะห์ตำแหน่งงานว่างสำหรับตำแหน่ง Data Engineer ในเดือนมกราคม 2020 เพื่อทำความเข้าใจว่าทักษะด้านเทคโนโลยีใดที่ได้รับความนิยมมากที่สุด จากนั้น ฉันเปรียบเทียบผลลัพธ์กับสถิติตำแหน่งงานว่างสำหรับตำแหน่งนักวิทยาศาสตร์ข้อมูล และมีความแตกต่างที่น่าสนใจบางประการเกิดขึ้น

ต่อไปนี้เป็นเทคโนโลยีสิบอันดับแรกที่ได้รับการกล่าวถึงบ่อยที่สุดในประกาศรับสมัครงาน:

ทักษะที่เป็นที่ต้องการมากที่สุดในวิชาชีพวิศวกรข้อมูล

กล่าวถึงเทคโนโลยีในตำแหน่งงานว่างสำหรับตำแหน่งวิศวกรข้อมูลในปี 2020

ลองคิดดู

ความรับผิดชอบของวิศวกรข้อมูล

ปัจจุบัน งานที่วิศวกรข้อมูลทำมีความสำคัญอย่างยิ่งต่อองค์กรต่างๆ ซึ่งมีหน้าที่รับผิดชอบในการจัดเก็บข้อมูลและนำข้อมูลมาอยู่ในรูปแบบที่พนักงานคนอื่นๆ สามารถทำงานได้ วิศวกรข้อมูลสร้างไปป์ไลน์เพื่อสตรีมหรือจัดกลุ่มข้อมูลจากหลายแหล่ง จากนั้นไปป์ไลน์จะดำเนินการแยก การแปลง และการโหลด (หรืออีกนัยหนึ่งคือกระบวนการ ETL) ทำให้ข้อมูลมีความเหมาะสมมากขึ้นสำหรับการใช้งานต่อไป หลังจากนั้นข้อมูลจะถูกส่งไปยังนักวิเคราะห์และนักวิทยาศาสตร์ข้อมูลเพื่อการประมวลผลที่ลึกยิ่งขึ้น สุดท้าย ข้อมูลจะสิ้นสุดการเดินทางในแดชบอร์ด รายงาน และโมเดลการเรียนรู้ของเครื่อง

ฉันกำลังมองหาข้อมูลที่จะช่วยให้ฉันสามารถสรุปได้ว่าเทคโนโลยีใดที่เป็นที่ต้องการมากที่สุดในงานของวิศวกรข้อมูลในขณะนี้

วิธีการ

ฉันรวบรวมข้อมูลจากเว็บไซต์ค้นหางานสามแห่ง - SimplyHired, จริง и สัตว์ประหลาด และดูว่าคำหลักใดที่พบร่วมกับ "วิศวกรข้อมูล" ในข้อความตำแหน่งงานว่างที่มุ่งเป้าไปที่ผู้อยู่อาศัยในสหรัฐอเมริกา สำหรับงานนี้ฉันใช้ไลบรารี Python สองไลบรารี - การร้องขอ и ซุปที่สวยงาม. ในบรรดาคำหลัก ฉันรวมทั้งคำหลักที่รวมอยู่ในรายการก่อนหน้าสำหรับการวิเคราะห์ตำแหน่งงานว่างสำหรับตำแหน่งนักวิทยาศาสตร์ข้อมูล และคำหลักที่ฉันเลือกด้วยตนเองในขณะที่อ่านข้อเสนองานสำหรับวิศวกรข้อมูล LinkedIn ไม่รวมอยู่ในรายการแหล่งที่มา เนื่องจากฉันถูกแบนที่นั่นหลังจากพยายามรวบรวมข้อมูลครั้งล่าสุด

สำหรับคำหลักแต่ละคำ ฉันคำนวณเปอร์เซ็นต์ของการเข้าชมจากจำนวนข้อความทั้งหมดในแต่ละไซต์แยกกัน จากนั้นจึงคำนวณค่าเฉลี่ยสำหรับแหล่งที่มาทั้งสามแห่ง

ผลการวิจัย

ด้านล่างนี้คือคำศัพท์ทางวิศวกรรมข้อมูลทางเทคนิคสามสิบข้อที่มีคะแนนสูงสุดจากทั้งสามไซต์งาน

ทักษะที่เป็นที่ต้องการมากที่สุดในวิชาชีพวิศวกรข้อมูล

และนี่คือตัวเลขเดียวกัน แต่แสดงในรูปแบบตาราง:

ทักษะที่เป็นที่ต้องการมากที่สุดในวิชาชีพวิศวกรข้อมูล

ไปตามลำดับ

การทบทวนผลลัพธ์

ทั้ง SQL และ Python ปรากฏในตำแหน่งงานว่างมากกว่าสองในสามที่ได้รับการตรวจสอบแล้ว เป็นเทคโนโลยีทั้งสองนี้ที่เหมาะสมในการศึกษาก่อน หลาม เป็นภาษาโปรแกรมยอดนิยมที่ใช้สำหรับการทำงานกับข้อมูล การสร้างเว็บไซต์ และการเขียนสคริปต์ SQL ย่อมาจาก Structured Query Language; มันเกี่ยวข้องกับมาตรฐานที่ดำเนินการโดยกลุ่มภาษาและใช้เพื่อดึงข้อมูลจากฐานข้อมูลเชิงสัมพันธ์ ปรากฏเมื่อนานมาแล้วและได้พิสูจน์ตัวเองแล้วว่าทนทานสูง

Spark ถูกกล่าวถึงในตำแหน่งงานว่างประมาณครึ่งหนึ่ง Apache Spark คือ “เครื่องมือวิเคราะห์ข้อมูลขนาดใหญ่แบบครบวงจรพร้อมโมดูลในตัวสำหรับการสตรีม, SQL, การเรียนรู้ของเครื่อง และการประมวลผลกราฟ” เป็นที่นิยมโดยเฉพาะในหมู่ผู้ที่ทำงานกับฐานข้อมูลขนาดใหญ่

AWS ปรากฏในประมาณ 45% ของประกาศรับสมัครงาน เป็นแพลตฟอร์มคอมพิวเตอร์คลาวด์ที่ผลิตโดย Amazon มีส่วนแบ่งการตลาดที่ใหญ่ที่สุดในบรรดาแพลตฟอร์มคลาวด์ทั้งหมด
ถัดมาเป็น Java และ Hadoop - มากกว่า 40% เล็กน้อยสำหรับน้องชายของพวกเขา ชวา เป็นภาษาที่พูดกันอย่างแพร่หลายและผ่านการทดสอบการต่อสู้แล้วว่า แบบสำรวจนักพัฒนา Stack Overflow ปี 2019 ได้รับรางวัลอันดับที่ 2020 ในบรรดาภาษาที่สร้างความสยองขวัญให้กับโปรแกรมเมอร์ ในทางตรงกันข้าม Python เป็นภาษาที่มีคนชื่นชอบมากที่สุดเป็นอันดับสอง ภาษา Java ดำเนินการโดย Oracle และทุกสิ่งที่คุณจำเป็นต้องรู้สามารถเข้าใจได้จากภาพหน้าจอของหน้าอย่างเป็นทางการตั้งแต่เดือนมกราคม XNUMX

ทักษะที่เป็นที่ต้องการมากที่สุดในวิชาชีพวิศวกรข้อมูล

มันเหมือนกับการขี่ไทม์แมชชีน
อาปาเช่ ฮาดูป ใช้โมเดลการเขียนโปรแกรม MapReduce กับคลัสเตอร์เซิร์ฟเวอร์สำหรับข้อมูลขนาดใหญ่ ตอนนี้โมเดลนี้กำลังถูกละทิ้งมากขึ้น

จากนั้นเราจะเห็น Hive, Scala, Kafka และ NoSQL - แต่ละเทคโนโลยีเหล่านี้ได้รับการกล่าวถึงหนึ่งในสี่ของตำแหน่งงานว่างที่ส่งมา Apache Hive เป็นซอฟต์แวร์คลังข้อมูลที่ “ทำให้ง่ายต่อการอ่าน เขียน และจัดการชุดข้อมูลขนาดใหญ่ที่อยู่ในร้านค้าแบบกระจายโดยใช้ SQL” สกาล่า – ภาษาการเขียนโปรแกรมที่ใช้อย่างแข็งขันเมื่อทำงานกับข้อมูลขนาดใหญ่ โดยเฉพาะอย่างยิ่ง Spark ถูกสร้างขึ้นใน Scala ในการจัดอันดับภาษาที่น่ากลัวที่กล่าวไปแล้ว สกาล่าอยู่ในอันดับที่สิบเอ็ด Apache Kafka – แพลตฟอร์มแบบกระจายสำหรับการประมวลผลข้อความสตรีมมิ่ง เป็นที่นิยมอย่างมากในฐานะวิธีการสตรีมข้อมูล

ฐานข้อมูล NoSQL เปรียบเทียบตัวเองกับ SQL ต่างกันตรงที่ไม่สัมพันธ์กัน ไม่มีโครงสร้าง และปรับขนาดได้ในแนวนอน NoSQL ได้รับความนิยมบ้าง แต่ความคลั่งไคล้ในแนวทางนี้ แม้จะถึงจุดที่ทำนายได้ว่ามันจะเข้ามาแทนที่ SQL เนื่องจากกระบวนทัศน์การจัดเก็บข้อมูลที่โดดเด่น ดูเหมือนจะจบลงแล้ว

เปรียบเทียบกับตำแหน่งงานว่างของ Data Scientist

ต่อไปนี้เป็นคำศัพท์ด้านเทคโนโลยีสามสิบคำที่ใช้บ่อยที่สุดในหมู่ผู้จ้างงานด้านวิทยาศาสตร์ข้อมูล ฉันได้รับรายการนี้ในลักษณะเดียวกับที่อธิบายไว้ข้างต้นสำหรับวิศวกรรมข้อมูล

ทักษะที่เป็นที่ต้องการมากที่สุดในวิชาชีพวิศวกรข้อมูล

กล่าวถึงเทคโนโลยีในตำแหน่งงานว่างสำหรับตำแหน่ง Data Scientist ประจำปี 2020

หากเราพูดถึงจำนวนทั้งหมด เมื่อเปรียบเทียบกับการรับสมัครที่พิจารณาก่อนหน้านี้ มีตำแหน่งงานว่างเพิ่มขึ้น 28% (12 ต่อ 013) มาดูกันว่าเทคโนโลยีใดบ้างที่ตำแหน่งงานว่างสำหรับนักวิทยาศาสตร์ข้อมูลมีน้อยกว่าวิศวกรข้อมูล

เป็นที่นิยมมากขึ้นในด้านวิศวกรรมข้อมูล

กราฟด้านล่างแสดงคำหลักที่มีค่าความแตกต่างโดยเฉลี่ยมากกว่า 10% หรือน้อยกว่า -10%

ทักษะที่เป็นที่ต้องการมากที่สุดในวิชาชีพวิศวกรข้อมูล

ความแตกต่างที่ใหญ่ที่สุดในความถี่ของคำหลักระหว่างวิศวกรข้อมูลและนักวิทยาศาสตร์ข้อมูล

AWS แสดงให้เห็นการเพิ่มขึ้นที่สำคัญที่สุด: ในด้านวิศวกรรมข้อมูลปรากฏเป็นประจำมากกว่าในด้านวิทยาศาสตร์ข้อมูล 25% (ประมาณ 45% และ 20% ของจำนวนตำแหน่งงานว่างทั้งหมด ตามลำดับ) ความแตกต่างที่เห็นได้ชัดเจน!

นี่คือข้อมูลเดียวกันในการนำเสนอที่แตกต่างกันเล็กน้อย - ในกราฟ ผลลัพธ์สำหรับคำหลักเดียวกันในตำแหน่งงานว่างสำหรับตำแหน่งวิศวกรข้อมูลและนักวิทยาศาสตร์ข้อมูลจะอยู่เคียงข้างกัน

ทักษะที่เป็นที่ต้องการมากที่สุดในวิชาชีพวิศวกรข้อมูล

ความแตกต่างที่ใหญ่ที่สุดในความถี่ของคำหลักระหว่างวิศวกรข้อมูลและนักวิทยาศาสตร์ข้อมูล

การก้าวกระโดดครั้งใหญ่ครั้งต่อไปที่ฉันสังเกตเห็นคือใน Spark วิศวกรข้อมูลมักจะต้องทำงานกับข้อมูลขนาดใหญ่ Kafka ยังเพิ่มขึ้น 20% นั่นคือเกือบสี่เท่าเมื่อเทียบกับผลลัพธ์ของตำแหน่งงานว่างของนักวิทยาศาสตร์ข้อมูล การถ่ายโอนข้อมูลถือเป็นความรับผิดชอบหลักประการหนึ่งของวิศวกรข้อมูล ในที่สุด จำนวนการกล่าวถึงก็สูงขึ้น 15% ในด้านวิศวกรรมข้อมูลสำหรับ Java, NoSQL, Redshift, SQL และ Hadoop

ไม่ค่อยได้รับความนิยมในด้านวิศวกรรมข้อมูล

ตอนนี้เรามาดูกันว่าเทคโนโลยีใดบ้างที่ได้รับความนิยมน้อยกว่าในตำแหน่งงานวิศวกรข้อมูล
การลดลงอย่างรวดเร็วที่สุดเมื่อเทียบกับภาควิทยาศาสตร์ข้อมูลเกิดขึ้น R: ที่นั่นเขาปรากฏตัวในตำแหน่งงานว่างประมาณ 56% ที่นี่ - เพียง 17% เท่านั้น ประทับใจ. R เป็นภาษาโปรแกรมที่นักวิทยาศาสตร์และนักสถิติชื่นชอบ และเป็นภาษาที่กลัวมากเป็นอันดับแปดของโลก

SAS ยังพบในตำแหน่งงานว่างสำหรับตำแหน่งวิศวกรข้อมูลบ่อยน้อยกว่ามาก - ความแตกต่างคือ 14% SAS เป็นภาษากรรมสิทธิ์ที่ออกแบบมาเพื่อทำงานกับสถิติและข้อมูล จุดที่น่าสนใจ: ตัดสินจากผลลัพธ์ งานวิจัยของฉันเกี่ยวกับการเปิดรับงานสำหรับนักวิทยาศาสตร์ข้อมูลเมื่อเร็ว ๆ นี้ ได้สูญเสียความสำคัญไปมาก มากกว่าเทคโนโลยีอื่น ๆ

เป็นที่ต้องการทั้งในด้านวิศวกรรมข้อมูลและวิทยาศาสตร์ข้อมูล

ควรสังเกตว่าแปดในสิบตำแหน่งแรกในทั้งสองชุดเหมือนกัน SQL, Python, Spark, AWS, Java, Hadoop, Hive และ Scala ติดสิบอันดับแรกสำหรับทั้งอุตสาหกรรมวิศวกรรมข้อมูลและวิทยาศาสตร์ข้อมูล ในกราฟด้านล่าง คุณจะเห็นเทคโนโลยีที่ได้รับความนิยมสูงสุด XNUMX อันดับในหมู่นายจ้างวิศวกรข้อมูล และถัดจากนั้นคืออัตราตำแหน่งว่างสำหรับนักวิทยาศาสตร์ข้อมูล

ทักษะที่เป็นที่ต้องการมากที่สุดในวิชาชีพวิศวกรข้อมูล

แนะนำ

หากคุณต้องการเข้าสู่วิศวกรรมข้อมูล ฉันขอแนะนำให้คุณเชี่ยวชาญเทคโนโลยีต่อไปนี้ โดยฉันจะแสดงรายการตามลำดับความสำคัญโดยประมาณ

เรียนรู้ภาษา SQL ฉันสนใจ PostgreSQL เพราะเป็นโอเพ่นซอร์ส ได้รับความนิยมอย่างมากในชุมชน และอยู่ในช่วงการเติบโต คุณสามารถเรียนรู้วิธีใช้ภาษาได้จากหนังสือ My Memorable SQL - มีเวอร์ชันนำร่องให้บริการแล้ว ที่นี่.

Master Python แม้ว่าจะไม่ใช่ระดับฮาร์ดคอร์ก็ตาม My Memorable Python ได้รับการออกแบบมาโดยเฉพาะสำหรับผู้เริ่มต้น สามารถซื้อได้ที่ อเมซอนสำเนาอิเล็กทรอนิกส์หรือทางกายภาพ ตามที่คุณต้องการ หรือดาวน์โหลดในรูปแบบ pdf หรือ epub บนเว็บไซต์นี้.

เมื่อคุณคุ้นเคยกับ Python แล้ว ให้ไปที่ pandas ซึ่งเป็นไลบรารี Python ที่ใช้สำหรับการล้างและประมวลผลข้อมูล หากคุณตั้งเป้าที่จะทำงานในบริษัทที่ต้องการความสามารถในการเขียนด้วยภาษา Python (และนี่คือส่วนใหญ่) คุณสามารถมั่นใจได้ว่าความรู้เกี่ยวกับแพนด้าจะถูกถือว่าเป็นค่าเริ่มต้น ขณะนี้ฉันกำลังจัดทำคู่มือเบื้องต้นเกี่ยวกับการทำงานกับแพนด้าอยู่ คุณก็ทำได้ สมัครเป็นสมาชิกเพื่อไม่ให้พลาดช่วงเวลาแห่งการปลดปล่อย

มาสเตอร์ AWS หากคุณต้องการเป็นวิศวกรข้อมูล คุณไม่สามารถทำได้หากไม่มีแพลตฟอร์มคลาวด์และ AWS ก็เป็นที่นิยมมากที่สุด หลักสูตรช่วยฉันได้มาก ลินุกซ์อคาเดมีตอนที่ฉันกำลังเรียนอยู่ วิศวกรรมข้อมูลบน Google Cloudฉันคิดว่าพวกเขาจะมีเนื้อหาที่ดีบน AWS ด้วย

หากคุณทำรายการทั้งหมดนี้เสร็จแล้วและต้องการเติบโตในสายตาของนายจ้างในฐานะวิศวกรข้อมูล ฉันขอแนะนำให้เพิ่ม Apache Spark สำหรับการทำงานกับข้อมูลขนาดใหญ่ แม้ว่างานวิจัยของฉันเกี่ยวกับตำแหน่งงานว่างของนักวิทยาศาสตร์ข้อมูลแสดงให้เห็นว่าความสนใจลดลง แต่ในหมู่วิศวกรข้อมูล งานดังกล่าวยังคงปรากฏในตำแหน่งงานว่างเกือบทุกวินาที

ในที่สุด

ฉันหวังว่าคุณจะพบว่าภาพรวมของเทคโนโลยีที่เป็นที่ต้องการมากที่สุดสำหรับวิศวกรข้อมูลมีประโยชน์ หากคุณสงสัยว่างานนักวิเคราะห์ดำเนินไปอย่างไร โปรดอ่าน บทความอื่นของฉัน. วิศวกรรมมีความสุข!

ที่มา: will.com

เพิ่มความคิดเห็น