วิศวกรข้อมูลและนักวิทยาศาสตร์ข้อมูล: อะไรคือความแตกต่าง?

อาชีพของ Data Scientist และ Data Engineer มักจะสับสนกัน แต่ละบริษัทมีลักษณะเฉพาะของตนเองในการทำงานกับข้อมูล วัตถุประสงค์ที่แตกต่างกันสำหรับการวิเคราะห์ และแนวคิดที่แตกต่างกันว่าผู้เชี่ยวชาญคนใดควรจัดการกับส่วนใดของงาน ดังนั้นแต่ละบริษัทจึงมีข้อกำหนดของตนเอง 

เรามาดูกันว่าผู้เชี่ยวชาญเหล่านี้แตกต่างกันอย่างไร ปัญหาทางธุรกิจที่พวกเขาแก้ไข ทักษะอะไรบ้าง และรายได้เท่าไร เนื้อหามีขนาดใหญ่ ดังนั้นเราจึงแบ่งออกเป็นสองสิ่งพิมพ์

ในบทความแรก Elena Gerasimova หัวหน้าคณะ “วิทยาศาสตร์ข้อมูลและการวิเคราะห์" ใน Netology บอกว่า Data Scientist และ Data Engineer ต่างกันอย่างไร และใช้เครื่องมืออะไรในการทำงาน

บทบาทของวิศวกรและนักวิทยาศาสตร์แตกต่างกันอย่างไร

วิศวกรข้อมูลเป็นผู้เชี่ยวชาญในด้านหนึ่ง พัฒนา ทดสอบ และบำรุงรักษาโครงสร้างพื้นฐานข้อมูล: ฐานข้อมูล ระบบจัดเก็บข้อมูล และระบบประมวลผลจำนวนมาก ในทางกลับกัน นี่คือผู้ที่ทำความสะอาดและ "รวม" ข้อมูลเพื่อใช้โดยนักวิเคราะห์และนักวิทยาศาสตร์ข้อมูล ซึ่งก็คือ สร้างไปป์ไลน์การประมวลผลข้อมูล

นักวิทยาศาสตร์ข้อมูลสร้างและฝึกโมเดลเชิงคาดการณ์ (และอื่นๆ) โดยใช้อัลกอริธึมการเรียนรู้ของเครื่องและโครงข่ายประสาทเทียม ช่วยให้ธุรกิจค้นหารูปแบบที่ซ่อนอยู่ คาดการณ์การพัฒนา และเพิ่มประสิทธิภาพกระบวนการทางธุรกิจที่สำคัญ

ข้อแตกต่างที่สำคัญระหว่าง Data Scientist และ Data Engineer ก็คือ พวกเขามักจะมีเป้าหมายที่แตกต่างกัน ทั้งสองทำงานเพื่อให้แน่ใจว่าข้อมูลสามารถเข้าถึงได้และมีคุณภาพสูง แต่นักวิทยาศาสตร์ข้อมูลค้นหาคำตอบสำหรับคำถามของเขาและทดสอบสมมติฐานในระบบนิเวศของข้อมูล (เช่น ตาม Hadoop) และวิศวกรข้อมูลสร้างไปป์ไลน์สำหรับการให้บริการอัลกอริธึมการเรียนรู้ของเครื่องที่เขียนโดยนักวิทยาศาสตร์ข้อมูลในคลัสเตอร์ Spark ภายในเดียวกัน ระบบนิเวศ 

วิศวกรข้อมูลนำคุณค่ามาสู่ธุรกิจโดยการทำงานเป็นส่วนหนึ่งของทีม หน้าที่ของมันคือทำหน้าที่เป็นตัวเชื่อมโยงที่สำคัญระหว่างผู้เข้าร่วมที่แตกต่างกัน: จากนักพัฒนาไปจนถึงผู้บริโภคทางธุรกิจในการรายงาน และเพื่อเพิ่มผลผลิตของนักวิเคราะห์ ตั้งแต่การตลาดและผลิตภัณฑ์ไปจนถึง BI 

ในทางตรงกันข้าม นักวิทยาศาสตร์ด้านข้อมูลจะมีส่วนร่วมในกลยุทธ์ของบริษัทและดึงข้อมูลเชิงลึก การตัดสินใจ การใช้อัลกอริธึมอัตโนมัติ การสร้างแบบจำลอง และสร้างมูลค่าจากข้อมูล
วิศวกรข้อมูลและนักวิทยาศาสตร์ข้อมูล: อะไรคือความแตกต่าง?

การทำงานกับข้อมูลอยู่ภายใต้หลักการ GIGO (ขยะเข้า - ขยะออก): หากนักวิเคราะห์และนักวิทยาศาสตร์ข้อมูลจัดการกับข้อมูลที่ไม่ได้เตรียมการและอาจไม่ถูกต้อง ผลลัพธ์แม้จะใช้อัลกอริธึมการวิเคราะห์ที่ซับซ้อนที่สุดก็จะไม่ถูกต้อง 

วิศวกรข้อมูลแก้ปัญหานี้ด้วยการสร้างไปป์ไลน์สำหรับการประมวลผล การล้าง และการแปลงข้อมูล และช่วยให้นักวิทยาศาสตร์ข้อมูลทำงานกับข้อมูลคุณภาพสูงได้ 

มีเครื่องมือมากมายในตลาดสำหรับการทำงานกับข้อมูลที่ครอบคลุมทุกขั้นตอน ตั้งแต่การปรากฏตัวของข้อมูลไปจนถึงการส่งออกไปยังแดชบอร์ดสำหรับคณะกรรมการ และสิ่งสำคัญคือวิศวกรจะตัดสินใจใช้งานไม่ใช่เพราะมันทันสมัย ​​แต่เป็นเพราะเขาจะช่วยงานของผู้เข้าร่วมคนอื่น ๆ ในกระบวนการนี้ได้จริงๆ 

ตามอัตภาพ: หากบริษัทจำเป็นต้องเชื่อมต่อระหว่าง BI และ ETL - การโหลดข้อมูลและอัปเดตรายงาน นี่คือพื้นฐานทั่วไปที่วิศวกรข้อมูลจะต้องจัดการด้วย (จะดีถ้ามีสถาปนิกในทีมด้วย)

ความรับผิดชอบของวิศวกรข้อมูล

  • การพัฒนา การก่อสร้าง และการบำรุงรักษาโครงสร้างพื้นฐานการประมวลผลข้อมูล
  • การจัดการข้อผิดพลาดและสร้างไปป์ไลน์การประมวลผลข้อมูลที่เชื่อถือได้
  • นำข้อมูลที่ไม่มีโครงสร้างจากแหล่งไดนามิกต่างๆ มาสู่รูปแบบที่จำเป็นสำหรับการทำงานของนักวิเคราะห์
  • ให้คำแนะนำเพื่อปรับปรุงความสอดคล้องและคุณภาพของข้อมูล
  • จัดเตรียมและบำรุงรักษาสถาปัตยกรรมข้อมูลที่ใช้โดยนักวิทยาศาสตร์ข้อมูลและนักวิเคราะห์ข้อมูล
  • ประมวลผลและจัดเก็บข้อมูลอย่างสม่ำเสมอและมีประสิทธิภาพในคลัสเตอร์แบบกระจายที่มีเซิร์ฟเวอร์นับสิบหรือหลายร้อยเครื่อง
  • ประเมินข้อแลกเปลี่ยนทางเทคนิคของเครื่องมือเพื่อสร้างสถาปัตยกรรมที่เรียบง่ายแต่แข็งแกร่งซึ่งสามารถอยู่รอดจากการหยุดชะงักได้
  • การควบคุมและสนับสนุนกระแสข้อมูลและระบบที่เกี่ยวข้อง (การตั้งค่าการตรวจสอบและการแจ้งเตือน)

มีความเชี่ยวชาญอีกประการหนึ่งในวิถีวิศวกรข้อมูล - วิศวกร ML กล่าวโดยสรุป วิศวกรเหล่านี้มีความเชี่ยวชาญในการนำโมเดลการเรียนรู้ของเครื่องมาสู่การใช้งานและการใช้งานในอุตสาหกรรม บ่อยครั้งที่แบบจำลองที่ได้รับจากนักวิทยาศาสตร์ข้อมูลเป็นส่วนหนึ่งของการศึกษาและอาจใช้งานไม่ได้ในสภาวะการต่อสู้

ความรับผิดชอบของ Data Scientist

  • แยกคุณสมบัติออกจากข้อมูลเพื่อใช้อัลกอริธึมการเรียนรู้ของเครื่อง
  • การใช้เครื่องมือการเรียนรู้ของเครื่องต่างๆ เพื่อทำนายและจำแนกรูปแบบในข้อมูล
  • การปรับปรุงประสิทธิภาพและความแม่นยำของอัลกอริธึมการเรียนรู้ของเครื่องโดยการปรับแต่งและเพิ่มประสิทธิภาพอัลกอริธึม
  • การสร้างสมมติฐานที่ “แข็งแกร่ง” ตามกลยุทธ์ของบริษัทที่ต้องการทดสอบ

ทั้งวิศวกรข้อมูลและนักวิทยาศาสตร์ข้อมูลต่างมีส่วนร่วมอย่างเป็นรูปธรรมในการพัฒนาวัฒนธรรมข้อมูล ซึ่งบริษัทจะสามารถสร้างผลกำไรเพิ่มเติมหรือลดต้นทุนได้

วิศวกรและนักวิทยาศาสตร์ทำงานด้วยภาษาและเครื่องมือใดบ้าง?

ปัจจุบัน ความคาดหวังของนักวิทยาศาสตร์ข้อมูลเปลี่ยนไป ก่อนหน้านี้ วิศวกรรวบรวมคำสั่ง SQL ขนาดใหญ่ เขียน MapReduce ด้วยตนเอง และประมวลผลข้อมูลโดยใช้เครื่องมือ เช่น Informatica ETL, Pentaho ETL, Talend 

ในปี 2020 ผู้เชี่ยวชาญจะทำไม่ได้หากปราศจากความรู้เกี่ยวกับ Python และเครื่องมือคำนวณสมัยใหม่ (เช่น Airflow) ความเข้าใจหลักการทำงานกับแพลตฟอร์มคลาวด์ (ใช้เพื่อประหยัดฮาร์ดแวร์ในขณะที่ปฏิบัติตามหลักความปลอดภัย)

SAP, Oracle, MySQL, Redis เป็นเครื่องมือแบบดั้งเดิมสำหรับวิศวกรข้อมูลในบริษัทขนาดใหญ่ สิ่งเหล่านี้ดี แต่ค่าลิขสิทธิ์นั้นสูงมากจนการเรียนรู้ที่จะทำงานร่วมกับพวกเขานั้นสมเหตุสมผลเฉพาะในโครงการอุตสาหกรรมเท่านั้น ในขณะเดียวกัน Postgres ก็มีทางเลือกฟรีให้เลือก ซึ่งฟรีและไม่เพียงแต่เหมาะสำหรับการฝึกอบรมเท่านั้น 

วิศวกรข้อมูลและนักวิทยาศาสตร์ข้อมูล: อะไรคือความแตกต่าง?
ในอดีตมักพบคำขอ Java และ Scala แม้ว่าเทคโนโลยีและวิธีการพัฒนาภาษาเหล่านี้จะจางหายไปในเบื้องหลัง

อย่างไรก็ตาม BigData แบบฮาร์ดคอร์: Hadoop, Spark และสวนสัตว์อื่นๆ ไม่ใช่ข้อกำหนดเบื้องต้นสำหรับวิศวกรข้อมูลอีกต่อไป แต่เป็นเครื่องมือประเภทหนึ่งสำหรับการแก้ปัญหาที่ไม่สามารถแก้ไขได้ด้วย ETL แบบดั้งเดิม 

เทรนด์นี้คือบริการสำหรับการใช้เครื่องมือที่ไม่มีความรู้ภาษาที่เขียน (เช่น Hadoop ที่ไม่มีความรู้ Java) รวมถึงการให้บริการสำเร็จรูปสำหรับการประมวลผลข้อมูลสตรีมมิ่ง (การจดจำเสียงหรือการจดจำรูปภาพในวิดีโอ ).

โซลูชันทางอุตสาหกรรมจาก SAS และ SPSS ได้รับความนิยม ในขณะที่ Tableau, Rapidminer, Stata และ Julia ยังถูกใช้อย่างกว้างขวางโดยนักวิทยาศาสตร์ข้อมูลสำหรับงานในท้องถิ่น

วิศวกรข้อมูลและนักวิทยาศาสตร์ข้อมูล: อะไรคือความแตกต่าง?
ความสามารถในการสร้างไปป์ไลน์ปรากฏต่อนักวิเคราะห์และนักวิทยาศาสตร์ข้อมูลเมื่อไม่กี่ปีที่ผ่านมา: ตัวอย่างเช่น สามารถส่งข้อมูลไปยังที่เก็บข้อมูลบน PostgreSQL โดยใช้สคริปต์ที่ค่อนข้างง่ายได้แล้ว 

โดยทั่วไปแล้ว การใช้ไปป์ไลน์และโครงสร้างข้อมูลแบบรวมยังคงเป็นความรับผิดชอบของวิศวกรข้อมูล แต่ในปัจจุบัน กระแสของผู้เชี่ยวชาญรูปตัว T ที่มีความสามารถในวงกว้างในสาขาที่เกี่ยวข้องนั้นแข็งแกร่งกว่าที่เคยเป็นมา เนื่องจากเครื่องมือถูกทำให้ง่ายขึ้นอย่างต่อเนื่อง

เหตุใด Data Engineer และ Data Scientist จึงทำงานร่วมกัน

ด้วยการทำงานอย่างใกล้ชิดกับวิศวกร นักวิทยาศาสตร์ด้านข้อมูลสามารถมุ่งเน้นไปที่ด้านการวิจัย การสร้างอัลกอริธึมการเรียนรู้ของเครื่องที่พร้อมสำหรับการผลิต
และวิศวกรจำเป็นต้องมุ่งเน้นไปที่ความสามารถในการปรับขนาด การใช้ข้อมูลซ้ำ และตรวจสอบให้แน่ใจว่าไปป์ไลน์ข้อมูลเข้าและออกในแต่ละโครงการสอดคล้องกับสถาปัตยกรรมระดับโลก

การแยกความรับผิดชอบนี้ทำให้มั่นใจถึงความสอดคล้องกันระหว่างทีมที่ทำงานในโครงการแมชชีนเลิร์นนิงที่แตกต่างกัน 

การทำงานร่วมกันช่วยสร้างผลิตภัณฑ์ใหม่ได้อย่างมีประสิทธิภาพ ความเร็วและคุณภาพเกิดขึ้นได้จากความสมดุลระหว่างการสร้างบริการสำหรับทุกคน (การจัดเก็บข้อมูลทั่วโลกหรือการรวมแดชบอร์ด) และการดำเนินการตามความต้องการหรือโครงการเฉพาะแต่ละรายการ (ไปป์ไลน์ที่มีความเชี่ยวชาญสูง การเชื่อมต่อแหล่งข้อมูลภายนอก) 

การทำงานอย่างใกล้ชิดกับนักวิทยาศาสตร์ข้อมูลและนักวิเคราะห์ช่วยให้วิศวกรพัฒนาทักษะการวิเคราะห์และการวิจัยเพื่อเขียนโค้ดได้ดีขึ้น การแบ่งปันความรู้ระหว่างผู้ใช้คลังสินค้าและ Data Lake ดีขึ้น ทำให้โครงการมีความคล่องตัวมากขึ้นและให้ผลลัพธ์ในระยะยาวที่ยั่งยืนมากขึ้น

ในบริษัทที่มุ่งพัฒนาวัฒนธรรมการทำงานกับข้อมูลและสร้างกระบวนการทางธุรกิจตามข้อมูลเหล่านั้น นักวิทยาศาสตร์ข้อมูลและวิศวกรข้อมูลจะเสริมซึ่งกันและกันและสร้างระบบการวิเคราะห์ข้อมูลที่สมบูรณ์ 

ในบทความถัดไป เราจะพูดถึงประเภทของการศึกษาที่ Data Engineer และ Data Scientist ควรมี ทักษะใดบ้างที่พวกเขาต้องพัฒนา และวิธีการทำงานของตลาด

จากบรรณาธิการของ Netology

หากคุณกำลังมองหาอาชีพ Data Engineer หรือ Data Scientist เราขอเชิญคุณศึกษาหลักสูตรหลักสูตรของเรา:

ที่มา: will.com

เพิ่มความคิดเห็น