โปรเจ็กต์ Open Data Hub เป็นแพลตฟอร์มแมชชีนเลิร์นนิงแบบเปิดที่ใช้ Red Hat OpenShift

อนาคตมาถึงแล้ว ปัญญาประดิษฐ์และเทคโนโลยีการเรียนรู้ของเครื่องจักรกำลังถูกนำไปใช้อย่างประสบความสำเร็จในร้านค้าที่คุณชื่นชอบ บริษัทขนส่ง และแม้กระทั่งฟาร์มไก่งวง

โปรเจ็กต์ Open Data Hub เป็นแพลตฟอร์มแมชชีนเลิร์นนิงแบบเปิดที่ใช้ Red Hat OpenShift

และหากมีสิ่งใดอยู่ ก็แสดงว่ามีบางอย่างเกี่ยวกับสิ่งนั้นบนอินเทอร์เน็ตแล้ว... โครงการเปิด! ดูว่า Open Data Hub ช่วยคุณปรับขนาดเทคโนโลยีใหม่และหลีกเลี่ยงความท้าทายในการนำไปใช้ได้อย่างไร

ด้วยข้อได้เปรียบทั้งหมดของปัญญาประดิษฐ์ (AI) และการเรียนรู้ของเครื่อง (ML) องค์กรจึงมักประสบปัญหาในการปรับขนาดเทคโนโลยีเหล่านี้ ปัญหาหลักในกรณีนี้มักมีดังต่อไปนี้:

  • การแลกเปลี่ยนข้อมูลและความร่วมมือ – แทบจะเป็นไปไม่ได้เลยที่จะแลกเปลี่ยนข้อมูลได้อย่างง่ายดายและทำงานร่วมกันในการวนซ้ำอย่างรวดเร็ว
  • การเข้าถึงข้อมูล – สำหรับแต่ละงาน จะต้องสร้างขึ้นใหม่ด้วยตนเอง ซึ่งใช้เวลานาน
  • เข้าถึงได้ตามความต้องการ – ไม่มีวิธีใดที่จะเข้าถึงเครื่องมือและแพลตฟอร์มการเรียนรู้ของเครื่องได้ตามความต้องการ รวมถึงโครงสร้างพื้นฐานด้านคอมพิวเตอร์
  • การผลิต – โมเดลยังคงอยู่ในขั้นตอนต้นแบบและไม่ได้นำไปใช้ในอุตสาหกรรม
  • ติดตามและอธิบายผลลัพธ์ของ AI – ความสามารถในการทำซ้ำ การติดตาม และการอธิบายผลลัพธ์ของ AI/ML เป็นเรื่องยาก

หากไม่ได้รับการจัดการ ปัญหาเหล่านี้ส่งผลเสียต่อความเร็ว ประสิทธิภาพ และผลผลิตของนักวิทยาศาสตร์ข้อมูลอันมีค่า สิ่งนี้นำไปสู่ความหงุดหงิด ความผิดหวังในการทำงาน และเป็นผลให้ความคาดหวังทางธุรกิจเกี่ยวกับ AI/ML สูญเปล่า

ความรับผิดชอบในการแก้ไขปัญหาเหล่านี้ตกเป็นของผู้เชี่ยวชาญด้านไอทีที่ต้องจัดหานักวิเคราะห์ข้อมูล ใช่แล้ว บางอย่างเช่นระบบคลาวด์ ในรายละเอียดเพิ่มเติม เราต้องการแพลตฟอร์มที่ให้อิสระในการเลือกและเข้าถึงได้สะดวกและง่ายดาย ในขณะเดียวกันก็รวดเร็ว กำหนดค่าใหม่ได้ง่าย ปรับขนาดได้ตามความต้องการ และทนทานต่อความล้มเหลว การสร้างแพลตฟอร์มดังกล่าวบนเทคโนโลยีโอเพ่นซอร์สช่วยหลีกเลี่ยงการผูกมัดผู้ขาย และรักษาความได้เปรียบเชิงกลยุทธ์ในระยะยาวในแง่ของการควบคุมต้นทุน

ไม่กี่ปีที่ผ่านมา สิ่งที่คล้ายกันเกิดขึ้นในการพัฒนาแอปพลิเคชัน และนำไปสู่การเกิดขึ้นของไมโครเซอร์วิส ไฮบริดคลาวด์ ระบบไอทีอัตโนมัติ และกระบวนการที่คล่องตัว เพื่อรับมือกับทั้งหมดนี้ ผู้เชี่ยวชาญด้านไอทีจึงหันมาใช้คอนเทนเนอร์, Kubernetes และไฮบริดคลาวด์แบบเปิด

ขณะนี้ประสบการณ์นี้ถูกนำไปใช้เพื่อตอบความท้าทายของอัล นั่นคือเหตุผลที่ผู้เชี่ยวชาญด้านไอทีกำลังสร้างแพลตฟอร์มที่ใช้คอนเทนเนอร์ ช่วยให้สามารถสร้างบริการ AI/ML ภายในกระบวนการที่คล่องตัว เร่งสร้างนวัตกรรม และสร้างขึ้นโดยคำนึงถึงระบบคลาวด์แบบไฮบริด

โปรเจ็กต์ Open Data Hub เป็นแพลตฟอร์มแมชชีนเลิร์นนิงแบบเปิดที่ใช้ Red Hat OpenShift

เราจะเริ่มสร้างแพลตฟอร์มดังกล่าวด้วย Red Hat OpenShift ซึ่งเป็นแพลตฟอร์ม Kubernetes แบบคอนเทนเนอร์ของเราสำหรับไฮบริดคลาวด์ ซึ่งมีระบบนิเวศที่เติบโตอย่างรวดเร็วของโซลูชัน ML ของซอฟต์แวร์และฮาร์ดแวร์ (NVIDIA, H2O.ai, Starburst, PerceptiLabs ฯลฯ) ลูกค้าบางรายของ Red Hat เช่น BMW Group, ExxonMobil และอื่นๆ ได้ปรับใช้กลุ่มเครื่องมือ ML แบบคอนเทนเนอร์และกระบวนการ DevOps บนแพลตฟอร์มและระบบนิเวศแล้ว เพื่อนำสถาปัตยกรรม ML ของพวกเขามาสู่การผลิต และเร่งการทำงานของนักวิเคราะห์ข้อมูลให้เร็วขึ้น

อีกเหตุผลหนึ่งที่เราเปิดตัวโครงการ Open Data Hub คือการสาธิตตัวอย่างสถาปัตยกรรมตามโครงการซอฟต์แวร์โอเพ่นซอร์สหลายโครงการ และแสดงวิธีการปรับใช้วงจรชีวิตทั้งหมดของโซลูชัน ML บนแพลตฟอร์ม OpenShift

เปิดโครงการ Data Hub

นี่คือโครงการโอเพ่นซอร์สที่พัฒนาขึ้นภายในชุมชนการพัฒนาที่เกี่ยวข้องและดำเนินการครบวงจร ตั้งแต่การโหลดและการแปลงข้อมูลเริ่มต้นไปจนถึงการสร้าง การฝึกอบรม และการบำรุงรักษาแบบจำลอง เมื่อแก้ไขปัญหา AI / ML โดยใช้คอนเทนเนอร์และ Kubernetes บน OpenShift แพลตฟอร์ม. โปรเจ็กต์นี้ถือได้ว่าเป็นการใช้งานอ้างอิง ซึ่งเป็นตัวอย่างวิธีสร้างโซลูชัน AI/ML-as-a-service แบบเปิดโดยใช้ OpenShift และเครื่องมือโอเพ่นซอร์สที่เกี่ยวข้อง เช่น Tensorflow, JupyterHub, Spark และอื่นๆ สิ่งสำคัญที่ควรทราบคือ Red Hat เองใช้โปรเจ็กต์นี้เพื่อให้บริการ AI/ML นอกจากนี้ OpenShift ยังทำงานร่วมกับโซลูชัน ML ของซอฟต์แวร์และฮาร์ดแวร์หลักจาก NVIDIA, Seldon, Starbust และผู้จำหน่ายอื่นๆ ทำให้การสร้างและรันระบบแมชชีนเลิร์นนิงของคุณเองง่ายขึ้น

โปรเจ็กต์ Open Data Hub เป็นแพลตฟอร์มแมชชีนเลิร์นนิงแบบเปิดที่ใช้ Red Hat OpenShift

โปรเจ็กต์ Open Data Hub มุ่งเน้นไปที่หมวดหมู่ของผู้ใช้และกรณีการใช้งานต่อไปนี้:

  • นักวิเคราะห์ข้อมูลที่ต้องการโซลูชันสำหรับการดำเนินโครงการ ML ซึ่งจัดระเบียบเหมือนระบบคลาวด์ที่มีฟังก์ชันบริการตนเอง
  • นักวิเคราะห์ข้อมูลที่ต้องการตัวเลือกสูงสุดจากเครื่องมือและแพลตฟอร์ม AI/ML แบบโอเพ่นซอร์สล่าสุด
  • นักวิเคราะห์ข้อมูลที่ต้องการเข้าถึงแหล่งข้อมูลเมื่อฝึกอบรมโมเดล
  • นักวิเคราะห์ข้อมูลที่ต้องการเข้าถึงทรัพยากรการประมวลผล (CPU, GPU, หน่วยความจำ)
  • นักวิเคราะห์ข้อมูลที่ต้องการความสามารถในการทำงานร่วมกันและแบ่งปันงานกับเพื่อนร่วมงาน รับคำติชม และปรับปรุงการทำซ้ำอย่างรวดเร็ว
  • นักวิเคราะห์ข้อมูลที่ต้องการโต้ตอบกับนักพัฒนา (และทีมพัฒนา) เพื่อนำโมเดล ML และผลงานของเขาไปสู่การใช้งานจริง
  • วิศวกรข้อมูลที่ต้องการให้นักวิเคราะห์ข้อมูลสามารถเข้าถึงแหล่งข้อมูลที่หลากหลาย ในขณะเดียวกันก็ปฏิบัติตามข้อกำหนดด้านกฎระเบียบและความปลอดภัย
  • ผู้ดูแลระบบ/ผู้ปฏิบัติงานระบบไอทีที่ต้องการความสามารถในการควบคุมวงจรการใช้งาน (การติดตั้ง การกำหนดค่า การอัพเกรด) ของส่วนประกอบและเทคโนโลยีโอเพ่นซอร์สได้อย่างง่ายดาย เรายังต้องการเครื่องมือการจัดการและโควต้าที่เหมาะสมอีกด้วย

โครงการ Open Data Hub รวบรวมเครื่องมือโอเพ่นซอร์สมากมายเพื่อปรับใช้การดำเนินการ AI/ML แบบครบวงจร Jupyter Notebook ถูกใช้ที่นี่เป็นเครื่องมือการทำงานหลักสำหรับการวิเคราะห์ข้อมูล ชุดเครื่องมือนี้ได้รับความนิยมอย่างกว้างขวางในหมู่นักวิทยาศาสตร์ข้อมูลในปัจจุบัน และ Open Data Hub ช่วยให้พวกเขาสร้างและจัดการพื้นที่ทำงาน Jupyter Notebook ได้อย่างง่ายดายโดยใช้ JupyterHub ในตัว นอกเหนือจากการสร้างและนำเข้าสมุดบันทึก Jupyter แล้ว โปรเจ็กต์ Open Data Hub ยังมีสมุดบันทึกสำเร็จรูปจำนวนหนึ่งในรูปแบบของไลบรารี AI

ไลบรารีนี้คือคอลเลกชันของส่วนประกอบและโซลูชันการเรียนรู้ของเครื่องแบบโอเพนซอร์สสำหรับสถานการณ์ทั่วไปที่ทำให้การสร้างต้นแบบอย่างรวดเร็วง่ายขึ้น JupyterHub ผสานรวมกับโมเดลการเข้าถึง RBAC ของ OpenShift ซึ่งช่วยให้คุณใช้บัญชี OpenShift ที่มีอยู่และใช้งานการลงชื่อเพียงครั้งเดียวได้ นอกจากนี้ JupyterHub ยังมีอินเทอร์เฟซผู้ใช้ที่เป็นมิตรต่อผู้ใช้ที่เรียกว่า spawner ซึ่งผู้ใช้สามารถกำหนดค่าจำนวนทรัพยากรการประมวลผล (แกน CPU, หน่วยความจำ, GPU) สำหรับ Jupyter Notebook ที่เลือกได้อย่างง่ายดาย

หลังจากที่นักวิเคราะห์ข้อมูลสร้างและกำหนดค่าแล็ปท็อป ข้อกังวลอื่นๆ ทั้งหมดเกี่ยวกับแล็ปท็อปจะได้รับการดูแลโดยตัวกำหนดเวลา Kubernetes ซึ่งเป็นส่วนหนึ่งของ OpenShift ผู้ใช้สามารถดำเนินการทดลอง บันทึก และแบ่งปันผลงานของตนได้เท่านั้น นอกจากนี้ ผู้ใช้ขั้นสูงยังสามารถเข้าถึงเชลล์ OpenShift CLI ได้โดยตรงจากโน้ตบุ๊ก Jupyter เพื่อใช้ประโยชน์จาก Kubernetes ดั้งเดิม เช่น ฟังก์ชันการทำงานหรือ OpenShift เช่น Tekton หรือ Knative หรือในกรณีนี้ คุณสามารถใช้ GUI ที่สะดวกของ OpenShift ซึ่งเรียกว่า "เว็บคอนโซล OpenShift"

โปรเจ็กต์ Open Data Hub เป็นแพลตฟอร์มแมชชีนเลิร์นนิงแบบเปิดที่ใช้ Red Hat OpenShift

โปรเจ็กต์ Open Data Hub เป็นแพลตฟอร์มแมชชีนเลิร์นนิงแบบเปิดที่ใช้ Red Hat OpenShift

ก้าวไปสู่ขั้นต่อไป Open Data Hub ช่วยให้สามารถจัดการไปป์ไลน์ข้อมูลได้ สำหรับสิ่งนี้ จะใช้ออบเจ็กต์ Ceph ซึ่งจัดไว้ให้เป็นที่จัดเก็บข้อมูลออบเจ็กต์ที่เข้ากันได้กับ S3 Apache Spark ช่วยให้คุณสามารถสตรีมข้อมูลจากแหล่งภายนอกหรือพื้นที่จัดเก็บข้อมูล Ceph S3 ในตัว และยังช่วยให้คุณสามารถดำเนินการแปลงข้อมูลเบื้องต้นได้อีกด้วย Apache Kafka ให้การจัดการขั้นสูงของไปป์ไลน์ข้อมูล (ซึ่งสามารถโหลดข้อมูลได้หลายครั้ง รวมถึงการแปลงข้อมูล การวิเคราะห์ และการดำเนินการคงอยู่)

ดังนั้นนักวิเคราะห์ข้อมูลจึงเข้าถึงข้อมูลและสร้างแบบจำลองขึ้นมา ตอนนี้เขามีความปรารถนาที่จะแบ่งปันผลลัพธ์ที่ได้รับกับเพื่อนร่วมงานหรือนักพัฒนาแอปพลิเคชัน และมอบแบบจำลองของเขาเกี่ยวกับหลักการของการบริการให้พวกเขา สิ่งนี้จำเป็นต้องมีเซิร์ฟเวอร์การอนุมาน และ Open Data Hub มีเซิร์ฟเวอร์ดังกล่าว ซึ่งเรียกว่า Seldon และอนุญาตให้คุณเผยแพร่โมเดลเป็นบริการ RESTful

ในบางจุด มีโมเดลดังกล่าวหลายรุ่นบนเซิร์ฟเวอร์ Seldon และจำเป็นต้องตรวจสอบวิธีการใช้งานโมเดลเหล่านั้น เพื่อให้บรรลุเป้าหมายนี้ Open Data Hub นำเสนอคอลเลกชันตัววัดที่เกี่ยวข้องและกลไกการรายงานโดยอิงตามเครื่องมือตรวจสอบโอเพ่นซอร์สที่ใช้กันอย่างแพร่หลาย Prometheus และ Grafana ด้วยเหตุนี้ เราจึงได้รับคำติชมเพื่อติดตามการใช้โมเดล AI โดยเฉพาะในสภาพแวดล้อมการใช้งานจริง

โปรเจ็กต์ Open Data Hub เป็นแพลตฟอร์มแมชชีนเลิร์นนิงแบบเปิดที่ใช้ Red Hat OpenShift

ด้วยวิธีนี้ Open Data Hub มอบแนวทางที่เหมือนคลาวด์ตลอดวงจรชีวิต AI/ML ทั้งหมด ตั้งแต่การเข้าถึงข้อมูลและการจัดเตรียม ไปจนถึงการฝึกอบรมโมเดลและการผลิต

ใส่ทั้งหมดเข้าด้วยกัน

ตอนนี้คำถามเกิดขึ้นว่าจะจัดระเบียบทั้งหมดนี้สำหรับผู้ดูแลระบบ OpenShift ได้อย่างไร และนี่คือจุดที่ผู้ดำเนินการ Kubernetes พิเศษสำหรับโครงการ Open Data Hub เข้ามามีบทบาท

โปรเจ็กต์ Open Data Hub เป็นแพลตฟอร์มแมชชีนเลิร์นนิงแบบเปิดที่ใช้ Red Hat OpenShift

ผู้ดำเนินการรายนี้จัดการการติดตั้ง การกำหนดค่า และวงจรชีวิตของโครงการ Open Data Hub รวมถึงการปรับใช้เครื่องมือดังกล่าว เช่น JupyterHub, Ceph, Spark, Kafka, Seldon, Prometheus และ Grafana โปรเจ็กต์ Open Data Hub สามารถพบได้บนเว็บคอนโซล OpenShift ในส่วนผู้ให้บริการชุมชน ดังนั้น ผู้ดูแลระบบ OpenShift จึงสามารถระบุได้ว่าโปรเจ็กต์ OpenShift ที่เกี่ยวข้องนั้นจัดอยู่ในประเภท "โปรเจ็กต์ Open Data Hub" นี้จะเสร็จสิ้นเพียงครั้งเดียว หลังจากนั้น นักวิเคราะห์ข้อมูลจะเข้าสู่ระบบพื้นที่โปรเจ็กต์ของเขาผ่านเว็บคอนโซล OpenShift และเห็นว่ามีการติดตั้งตัวดำเนินการ Kubernetes ที่เกี่ยวข้องและพร้อมใช้งานสำหรับโปรเจ็กต์ของเขา จากนั้นเขาสร้างอินสแตนซ์โปรเจ็กต์ Open Data Hub ได้ในคลิกเดียว และสามารถเข้าถึงเครื่องมือที่อธิบายไว้ข้างต้นได้ทันที และทั้งหมดนี้สามารถกำหนดค่าได้ในโหมดความพร้อมใช้งานสูงและความทนทานต่อข้อผิดพลาด

โปรเจ็กต์ Open Data Hub เป็นแพลตฟอร์มแมชชีนเลิร์นนิงแบบเปิดที่ใช้ Red Hat OpenShift

หากคุณต้องการลองใช้โปรเจ็กต์ Open Data Hub ด้วยตัวคุณเอง ให้เริ่มต้นด้วย คำแนะนำในการติดตั้งและบทช่วยสอนเบื้องต้น. ดูรายละเอียดทางเทคนิคของสถาปัตยกรรม Open Data Hub ได้ ที่นี่, แผนการพัฒนาโครงการ – ที่นี่. ในอนาคต เราวางแผนที่จะดำเนินการบูรณาการเพิ่มเติมกับ Kubeflow แก้ไขปัญหาหลายประการเกี่ยวกับการควบคุมข้อมูลและความปลอดภัย และยังจัดระเบียบการผสานรวมกับระบบที่ใช้กฎ Drools และ Optaplanner แสดงความคิดเห็นของคุณและเข้าร่วมโครงการ เปิดฮับข้อมูล เป็นไปได้ในเพจ ชุมชน.

สรุป: ความท้าทายในการปรับขนาดที่จริงจังกำลังขัดขวางไม่ให้องค์กรต่างๆ ตระหนักถึงศักยภาพของปัญญาประดิษฐ์และการเรียนรู้ของเครื่องจักรอย่างเต็มที่ Red Hat OpenShift ถูกนำมาใช้อย่างประสบความสำเร็จมาเป็นเวลานานเพื่อแก้ไขปัญหาที่คล้ายกันในอุตสาหกรรมซอฟต์แวร์ โครงการ Open Data Hub ซึ่งดำเนินการภายในชุมชนการพัฒนาโอเพ่นซอร์ส นำเสนอสถาปัตยกรรมอ้างอิงสำหรับการจัดระเบียบการดำเนินการ AI/ML แบบครบวงจรโดยใช้ OpenShift ไฮบริดคลาวด์ เรามีแผนที่ชัดเจนและรอบคอบสำหรับการพัฒนาโครงการนี้ และเราจริงจังกับการสร้างชุมชนที่กระตือรือร้นและประสบผลสำเร็จโดยรอบเพื่อพัฒนาโซลูชัน AI แบบเปิดบนแพลตฟอร์ม OpenShift

ที่มา: will.com

เพิ่มความคิดเห็น