ตามที่
ฉันวิเคราะห์ตำแหน่งงานว่างสำหรับตำแหน่ง Data Engineer ในเดือนมกราคม 2020 เพื่อทำความเข้าใจว่าทักษะด้านเทคโนโลยีใดที่ได้รับความนิยมมากที่สุด จากนั้น ฉันเปรียบเทียบผลลัพธ์กับสถิติตำแหน่งงานว่างสำหรับตำแหน่งนักวิทยาศาสตร์ข้อมูล และมีความแตกต่างที่น่าสนใจบางประการเกิดขึ้น
ต่อไปนี้เป็นเทคโนโลยีสิบอันดับแรกที่ได้รับการกล่าวถึงบ่อยที่สุดในประกาศรับสมัครงาน:
กล่าวถึงเทคโนโลยีในตำแหน่งงานว่างสำหรับตำแหน่งวิศวกรข้อมูลในปี 2020
ความรับผิดชอบของวิศวกรข้อมูล
ปัจจุบัน งานที่วิศวกรข้อมูลทำมีความสำคัญอย่างยิ่งต่อองค์กรต่างๆ ซึ่งมีหน้าที่รับผิดชอบในการจัดเก็บข้อมูลและนำข้อมูลมาอยู่ในรูปแบบที่พนักงานคนอื่นๆ สามารถทำงานได้ วิศวกรข้อมูลสร้างไปป์ไลน์เพื่อสตรีมหรือจัดกลุ่มข้อมูลจากหลายแหล่ง จากนั้นไปป์ไลน์จะดำเนินการแยก การแปลง และการโหลด (หรืออีกนัยหนึ่งคือกระบวนการ ETL) ทำให้ข้อมูลมีความเหมาะสมมากขึ้นสำหรับการใช้งานต่อไป หลังจากนั้นข้อมูลจะถูกส่งไปยังนักวิเคราะห์และนักวิทยาศาสตร์ข้อมูลเพื่อการประมวลผลที่ลึกยิ่งขึ้น สุดท้าย ข้อมูลจะสิ้นสุดการเดินทางในแดชบอร์ด รายงาน และโมเดลการเรียนรู้ของเครื่อง
ฉันกำลังมองหาข้อมูลที่จะช่วยให้ฉันสามารถสรุปได้ว่าเทคโนโลยีใดที่เป็นที่ต้องการมากที่สุดในงานของวิศวกรข้อมูลในขณะนี้
วิธีการ
ฉันรวบรวมข้อมูลจากเว็บไซต์ค้นหางานสามแห่ง -
สำหรับคำหลักแต่ละคำ ฉันคำนวณเปอร์เซ็นต์ของการเข้าชมจากจำนวนข้อความทั้งหมดในแต่ละไซต์แยกกัน จากนั้นจึงคำนวณค่าเฉลี่ยสำหรับแหล่งที่มาทั้งสามแห่ง
ผลการวิจัย
ด้านล่างนี้คือคำศัพท์ทางวิศวกรรมข้อมูลทางเทคนิคสามสิบข้อที่มีคะแนนสูงสุดจากทั้งสามไซต์งาน
และนี่คือตัวเลขเดียวกัน แต่แสดงในรูปแบบตาราง:
ไปตามลำดับ
การทบทวนผลลัพธ์
ทั้ง SQL และ Python ปรากฏในตำแหน่งงานว่างมากกว่าสองในสามที่ได้รับการตรวจสอบแล้ว เป็นเทคโนโลยีทั้งสองนี้ที่เหมาะสมในการศึกษาก่อน
Spark ถูกกล่าวถึงในตำแหน่งงานว่างประมาณครึ่งหนึ่ง
AWS ปรากฏในประมาณ 45% ของประกาศรับสมัครงาน เป็นแพลตฟอร์มคอมพิวเตอร์คลาวด์ที่ผลิตโดย Amazon มีส่วนแบ่งการตลาดที่ใหญ่ที่สุดในบรรดาแพลตฟอร์มคลาวด์ทั้งหมด
ถัดมาเป็น Java และ Hadoop - มากกว่า 40% เล็กน้อยสำหรับน้องชายของพวกเขา
มันเหมือนกับการขี่ไทม์แมชชีน
จากนั้นเราจะเห็น Hive, Scala, Kafka และ NoSQL - แต่ละเทคโนโลยีเหล่านี้ได้รับการกล่าวถึงหนึ่งในสี่ของตำแหน่งงานว่างที่ส่งมา Apache Hive เป็นซอฟต์แวร์คลังข้อมูลที่ “ทำให้ง่ายต่อการอ่าน เขียน และจัดการชุดข้อมูลขนาดใหญ่ที่อยู่ในร้านค้าแบบกระจายโดยใช้ SQL”
เปรียบเทียบกับตำแหน่งงานว่างของ Data Scientist
ต่อไปนี้เป็นคำศัพท์ด้านเทคโนโลยีสามสิบคำที่ใช้บ่อยที่สุดในหมู่ผู้จ้างงานด้านวิทยาศาสตร์ข้อมูล ฉันได้รับรายการนี้ในลักษณะเดียวกับที่อธิบายไว้ข้างต้นสำหรับวิศวกรรมข้อมูล
กล่าวถึงเทคโนโลยีในตำแหน่งงานว่างสำหรับตำแหน่ง Data Scientist ประจำปี 2020
หากเราพูดถึงจำนวนทั้งหมด เมื่อเปรียบเทียบกับการรับสมัครที่พิจารณาก่อนหน้านี้ มีตำแหน่งงานว่างเพิ่มขึ้น 28% (12 ต่อ 013) มาดูกันว่าเทคโนโลยีใดบ้างที่ตำแหน่งงานว่างสำหรับนักวิทยาศาสตร์ข้อมูลมีน้อยกว่าวิศวกรข้อมูล
เป็นที่นิยมมากขึ้นในด้านวิศวกรรมข้อมูล
กราฟด้านล่างแสดงคำหลักที่มีค่าความแตกต่างโดยเฉลี่ยมากกว่า 10% หรือน้อยกว่า -10%
ความแตกต่างที่ใหญ่ที่สุดในความถี่ของคำหลักระหว่างวิศวกรข้อมูลและนักวิทยาศาสตร์ข้อมูล
AWS แสดงให้เห็นการเพิ่มขึ้นที่สำคัญที่สุด: ในด้านวิศวกรรมข้อมูลปรากฏเป็นประจำมากกว่าในด้านวิทยาศาสตร์ข้อมูล 25% (ประมาณ 45% และ 20% ของจำนวนตำแหน่งงานว่างทั้งหมด ตามลำดับ) ความแตกต่างที่เห็นได้ชัดเจน!
นี่คือข้อมูลเดียวกันในการนำเสนอที่แตกต่างกันเล็กน้อย - ในกราฟ ผลลัพธ์สำหรับคำหลักเดียวกันในตำแหน่งงานว่างสำหรับตำแหน่งวิศวกรข้อมูลและนักวิทยาศาสตร์ข้อมูลจะอยู่เคียงข้างกัน
ความแตกต่างที่ใหญ่ที่สุดในความถี่ของคำหลักระหว่างวิศวกรข้อมูลและนักวิทยาศาสตร์ข้อมูล
การก้าวกระโดดครั้งใหญ่ครั้งต่อไปที่ฉันสังเกตเห็นคือใน Spark วิศวกรข้อมูลมักจะต้องทำงานกับข้อมูลขนาดใหญ่
ไม่ค่อยได้รับความนิยมในด้านวิศวกรรมข้อมูล
ตอนนี้เรามาดูกันว่าเทคโนโลยีใดบ้างที่ได้รับความนิยมน้อยกว่าในตำแหน่งงานวิศวกรข้อมูล
การลดลงอย่างรวดเร็วที่สุดเมื่อเทียบกับภาควิทยาศาสตร์ข้อมูลเกิดขึ้น
เป็นที่ต้องการทั้งในด้านวิศวกรรมข้อมูลและวิทยาศาสตร์ข้อมูล
ควรสังเกตว่าแปดในสิบตำแหน่งแรกในทั้งสองชุดเหมือนกัน SQL, Python, Spark, AWS, Java, Hadoop, Hive และ Scala ติดสิบอันดับแรกสำหรับทั้งอุตสาหกรรมวิศวกรรมข้อมูลและวิทยาศาสตร์ข้อมูล ในกราฟด้านล่าง คุณจะเห็นเทคโนโลยีที่ได้รับความนิยมสูงสุด XNUMX อันดับในหมู่นายจ้างวิศวกรข้อมูล และถัดจากนั้นคืออัตราตำแหน่งว่างสำหรับนักวิทยาศาสตร์ข้อมูล
แนะนำ
หากคุณต้องการเข้าสู่วิศวกรรมข้อมูล ฉันขอแนะนำให้คุณเชี่ยวชาญเทคโนโลยีต่อไปนี้ โดยฉันจะแสดงรายการตามลำดับความสำคัญโดยประมาณ
เรียนรู้ภาษา SQL ฉันสนใจ PostgreSQL เพราะเป็นโอเพ่นซอร์ส ได้รับความนิยมอย่างมากในชุมชน และอยู่ในช่วงการเติบโต คุณสามารถเรียนรู้วิธีใช้ภาษาได้จากหนังสือ My Memorable SQL - มีเวอร์ชันนำร่องให้บริการแล้ว
Master Python แม้ว่าจะไม่ใช่ระดับฮาร์ดคอร์ก็ตาม My Memorable Python ได้รับการออกแบบมาโดยเฉพาะสำหรับผู้เริ่มต้น สามารถซื้อได้ที่
เมื่อคุณคุ้นเคยกับ Python แล้ว ให้ไปที่ pandas ซึ่งเป็นไลบรารี Python ที่ใช้สำหรับการล้างและประมวลผลข้อมูล หากคุณตั้งเป้าที่จะทำงานในบริษัทที่ต้องการความสามารถในการเขียนด้วยภาษา Python (และนี่คือส่วนใหญ่) คุณสามารถมั่นใจได้ว่าความรู้เกี่ยวกับแพนด้าจะถูกถือว่าเป็นค่าเริ่มต้น ขณะนี้ฉันกำลังจัดทำคู่มือเบื้องต้นเกี่ยวกับการทำงานกับแพนด้าอยู่ คุณก็ทำได้
มาสเตอร์ AWS หากคุณต้องการเป็นวิศวกรข้อมูล คุณไม่สามารถทำได้หากไม่มีแพลตฟอร์มคลาวด์และ AWS ก็เป็นที่นิยมมากที่สุด หลักสูตรช่วยฉันได้มาก
หากคุณทำรายการทั้งหมดนี้เสร็จแล้วและต้องการเติบโตในสายตาของนายจ้างในฐานะวิศวกรข้อมูล ฉันขอแนะนำให้เพิ่ม Apache Spark สำหรับการทำงานกับข้อมูลขนาดใหญ่ แม้ว่างานวิจัยของฉันเกี่ยวกับตำแหน่งงานว่างของนักวิทยาศาสตร์ข้อมูลแสดงให้เห็นว่าความสนใจลดลง แต่ในหมู่วิศวกรข้อมูล งานดังกล่าวยังคงปรากฏในตำแหน่งงานว่างเกือบทุกวินาที
ในที่สุด
ฉันหวังว่าคุณจะพบว่าภาพรวมของเทคโนโลยีที่เป็นที่ต้องการมากที่สุดสำหรับวิศวกรข้อมูลมีประโยชน์ หากคุณสงสัยว่างานนักวิเคราะห์ดำเนินไปอย่างไร โปรดอ่าน
ที่มา: will.com