Dự án Open Data Hub là một nền tảng học máy mở dựa trên Red Hat OpenShift

Tương lai đã đến, trí tuệ nhân tạo và công nghệ máy học đã được sử dụng thành công bởi các cửa hàng, công ty vận tải và thậm chí cả trang trại gà tây yêu thích của bạn.

Dự án Open Data Hub là một nền tảng học máy mở dựa trên Red Hat OpenShift

Và nếu thứ gì đó tồn tại thì đã có thứ gì đó về nó trên Internet... một dự án mở! Xem cách Open Data Hub giúp bạn mở rộng quy mô công nghệ mới và tránh những thách thức khi triển khai.

Với tất cả những lợi thế của trí tuệ nhân tạo (AI) và máy học (ML), các tổ chức thường gặp khó khăn khi mở rộng các công nghệ này. Các vấn đề chính trong trường hợp này thường là như sau:

  • Trao đổi thông tin và hợp tác – hầu như không thể trao đổi thông tin một cách dễ dàng và cộng tác trong những lần lặp lại nhanh chóng.
  • Truy cập dữ liệu – đối với mỗi nhiệm vụ, nó cần phải được xây dựng lại và thủ công, mất rất nhiều thời gian.
  • Truy cập theo yêu cầu – không có cách nào để có được quyền truy cập theo yêu cầu vào các công cụ và nền tảng học máy cũng như cơ sở hạ tầng máy tính.
  • Sản xuất – các mô hình vẫn ở giai đoạn nguyên mẫu và không được đưa vào sử dụng công nghiệp.
  • Theo dõi và giải thích kết quả AI – khó tái tạo, theo dõi và giải thích kết quả AI/ML.

Nếu không được giải quyết, những vấn đề này sẽ tác động tiêu cực đến tốc độ, hiệu quả và năng suất của các nhà khoa học dữ liệu có giá trị. Điều này dẫn đến sự thất vọng, thất vọng trong công việc của họ và kết quả là những kỳ vọng của doanh nghiệp về AI/ML trở nên lãng phí.

Trách nhiệm giải quyết những vấn đề này thuộc về các chuyên gia CNTT, những người phải cung cấp cho các nhà phân tích dữ liệu - đúng vậy, thứ gì đó giống như đám mây. Chi tiết hơn, chúng ta cần một nền tảng mang lại quyền tự do lựa chọn và khả năng truy cập thuận tiện, dễ dàng. Đồng thời, nó nhanh chóng, dễ dàng cấu hình lại, có thể mở rộng theo yêu cầu và có khả năng chống lại các lỗi. Việc xây dựng một nền tảng như vậy trên các công nghệ nguồn mở giúp tránh sự ràng buộc của nhà cung cấp và duy trì lợi thế chiến lược lâu dài về mặt kiểm soát chi phí.

Một vài năm trước, điều tương tự đã xảy ra trong quá trình phát triển ứng dụng và dẫn đến sự xuất hiện của vi dịch vụ, đám mây lai, tự động hóa CNTT và các quy trình linh hoạt. Để giải quyết tất cả những điều này, các chuyên gia CNTT đã chuyển sang sử dụng container, Kubernetes và đám mây lai mở.

Kinh nghiệm này hiện đang được áp dụng để giải đáp những thách thức của Al. Đó là lý do tại sao các chuyên gia CNTT đang xây dựng các nền tảng dựa trên bộ chứa, cho phép tạo ra các dịch vụ AI/ML trong các quy trình linh hoạt, tăng tốc đổi mới và được xây dựng hướng tới đám mây lai.

Dự án Open Data Hub là một nền tảng học máy mở dựa trên Red Hat OpenShift

Chúng tôi sẽ bắt đầu xây dựng một nền tảng như vậy với Red Hat OpenShift, nền tảng Kubernetes được đóng gói của chúng tôi dành cho đám mây lai, nền tảng này có hệ sinh thái các giải pháp ML phần mềm và phần cứng đang phát triển nhanh chóng (NVIDIA, H2O.ai, Starburst, PerceptiLabs, v.v.). Một số khách hàng của Red Hat, chẳng hạn như Tập đoàn BMW, ExxonMobil và các khách hàng khác, đã triển khai chuỗi công cụ ML được đóng gói và quy trình DevOps trên nền tảng và hệ sinh thái của nó để đưa kiến ​​trúc ML của họ vào sản xuất và tăng tốc công việc của các nhà phân tích dữ liệu.

Một lý do khác khiến chúng tôi khởi động dự án Open Data Hub là để trình diễn một ví dụ về kiến ​​trúc dựa trên một số dự án phần mềm nguồn mở và chỉ ra cách triển khai toàn bộ vòng đời của giải pháp ML dựa trên nền tảng OpenShift.

Dự án trung tâm dữ liệu mở

Đây là một dự án nguồn mở được phát triển trong cộng đồng phát triển tương ứng và thực hiện toàn bộ chu trình hoạt động - từ tải và chuyển đổi dữ liệu ban đầu đến tạo, đào tạo và duy trì mô hình - khi giải quyết các vấn đề AI/ML bằng cách sử dụng container và Kubernetes trên OpenShift nền tảng. Dự án này có thể được coi là một triển khai tham khảo, một ví dụ về cách xây dựng giải pháp AI/ML-as-a-service mở dựa trên OpenShift và các công cụ nguồn mở có liên quan như Tensorflow, JupyterHub, Spark và các công cụ khác. Điều quan trọng cần lưu ý là chính Red Hat sử dụng dự án này để cung cấp các dịch vụ AI/ML của mình. Ngoài ra, OpenShift tích hợp với các giải pháp ML phần mềm và phần cứng chính của NVIDIA, Seldon, Starbust và các nhà cung cấp khác, giúp việc xây dựng và vận hành hệ thống máy học của riêng bạn trở nên dễ dàng hơn.

Dự án Open Data Hub là một nền tảng học máy mở dựa trên Red Hat OpenShift

Dự án Open Data Hub tập trung vào các loại người dùng và trường hợp sử dụng sau:

  • Nhà phân tích dữ liệu cần giải pháp triển khai các dự án ML, được tổ chức giống như đám mây với các chức năng tự phục vụ.
  • Nhà phân tích dữ liệu cần sự lựa chọn tối đa từ các công cụ và nền tảng AI/ML nguồn mở mới nhất.
  • Nhà phân tích dữ liệu cần truy cập vào nguồn dữ liệu khi đào tạo mô hình.
  • Nhà phân tích dữ liệu cần truy cập vào tài nguyên máy tính (CPU, GPU, bộ nhớ).
  • Nhà phân tích dữ liệu yêu cầu khả năng cộng tác và chia sẻ công việc với đồng nghiệp, nhận phản hồi và thực hiện các cải tiến trong quá trình lặp lại nhanh chóng.
  • Một nhà phân tích dữ liệu muốn tương tác với các nhà phát triển (và các nhóm phát triển) để các mô hình ML và kết quả công việc của anh ấy được đưa vào sản xuất.
  • Kỹ sư dữ liệu cần cung cấp cho nhà phân tích dữ liệu quyền truy cập vào nhiều nguồn dữ liệu khác nhau trong khi tuân thủ các yêu cầu quy định và bảo mật.
  • Quản trị viên/người vận hành hệ thống CNTT yêu cầu khả năng kiểm soát dễ dàng vòng đời (cài đặt, cấu hình, nâng cấp) của các thành phần và công nghệ nguồn mở. Chúng ta cũng cần các công cụ quản lý và hạn ngạch thích hợp.

Dự án Open Data Hub tập hợp nhiều công cụ nguồn mở để triển khai toàn bộ chu trình hoạt động AI/ML. Jupyter Notebook được sử dụng ở đây làm công cụ làm việc chính để phân tích dữ liệu. Bộ công cụ này ngày nay được các nhà khoa học dữ liệu sử dụng rộng rãi và Open Data Hub cho phép họ dễ dàng tạo và quản lý không gian làm việc của Jupyter Notebook bằng cách sử dụng JupyterHub tích hợp sẵn. Ngoài việc tạo và nhập sổ ghi chép Jupyter, dự án Open Data Hub còn chứa một số sổ ghi chép làm sẵn dưới dạng Thư viện AI.

Thư viện này là tập hợp các thành phần và giải pháp máy học nguồn mở dành cho các tình huống phổ biến giúp đơn giản hóa quá trình tạo nguyên mẫu nhanh. JupyterHub được tích hợp với mô hình truy cập RBAC của OpenShift, cho phép bạn sử dụng các tài khoản OpenShift hiện có và triển khai đăng nhập một lần. Ngoài ra, JupyterHub còn cung cấp giao diện người dùng thân thiện với người dùng được gọi là spawner, qua đó người dùng có thể dễ dàng định cấu hình lượng tài nguyên máy tính (lõi CPU, bộ nhớ, GPU) cho Notebook Jupyter đã chọn.

Sau khi nhà phân tích dữ liệu tạo và định cấu hình máy tính xách tay, tất cả các mối quan tâm khác về nó sẽ được bộ lập lịch Kubernetes, một phần của OpenShift, xử lý. Người dùng chỉ có thể thực hiện thử nghiệm, lưu và chia sẻ kết quả công việc của mình. Ngoài ra, người dùng nâng cao có thể truy cập trực tiếp vào shell OpenShift CLI trực tiếp từ sổ ghi chép Jupyter để tận dụng các nguyên hàm Kubernetes như chức năng Job hoặc OpenShift như Tekton hoặc Knative. Hoặc để làm được điều này, bạn có thể sử dụng GUI tiện lợi của OpenShift, được gọi là “Bảng điều khiển web OpenShift”.

Dự án Open Data Hub là một nền tảng học máy mở dựa trên Red Hat OpenShift

Dự án Open Data Hub là một nền tảng học máy mở dựa trên Red Hat OpenShift

Chuyển sang giai đoạn tiếp theo, Open Data Hub giúp quản lý đường dẫn dữ liệu. Đối với điều này, một đối tượng Ceph được sử dụng, được cung cấp dưới dạng kho lưu trữ dữ liệu đối tượng tương thích với S3. Apache Spark cung cấp truyền dữ liệu từ các nguồn bên ngoài hoặc bộ lưu trữ Ceph S3 tích hợp và cũng cho phép bạn thực hiện các chuyển đổi dữ liệu sơ bộ. Apache Kafka cung cấp khả năng quản lý nâng cao các đường ống dữ liệu (nơi dữ liệu có thể được tải nhiều lần, cũng như các hoạt động chuyển đổi, phân tích và lưu giữ dữ liệu).

Vì vậy, nhà phân tích dữ liệu đã truy cập dữ liệu và xây dựng một mô hình. Giờ đây, anh ấy mong muốn chia sẻ kết quả thu được với đồng nghiệp hoặc nhà phát triển ứng dụng và cung cấp cho họ mô hình của mình theo nguyên tắc của một dịch vụ. Điều này yêu cầu một máy chủ suy luận và Open Data Hub có một máy chủ như vậy, nó được gọi là Seldon và cho phép bạn xuất bản mô hình dưới dạng dịch vụ RESTful.

Tại một số thời điểm, có một số mô hình như vậy trên máy chủ Seldon và cần phải theo dõi cách chúng được sử dụng. Để đạt được điều này, Open Data Hub cung cấp một tập hợp các số liệu liên quan và công cụ báo cáo dựa trên các công cụ giám sát nguồn mở được sử dụng rộng rãi Prometheus và Grafana. Do đó, chúng tôi nhận được phản hồi để giám sát việc sử dụng các mô hình AI, đặc biệt là trong môi trường sản xuất.

Dự án Open Data Hub là một nền tảng học máy mở dựa trên Red Hat OpenShift

Bằng cách này, Open Data Hub cung cấp cách tiếp cận giống như đám mây trong toàn bộ vòng đời AI/ML, từ truy cập và chuẩn bị dữ liệu đến đào tạo và sản xuất mô hình.

Đặt tất cả lại với nhau

Bây giờ câu hỏi đặt ra là làm thế nào để tổ chức tất cả những điều này cho quản trị viên OpenShift. Và đây là lúc một nhà điều hành Kubernetes đặc biệt dành cho các dự án Open Data Hub phát huy tác dụng.

Dự án Open Data Hub là một nền tảng học máy mở dựa trên Red Hat OpenShift

Nhà điều hành này quản lý việc cài đặt, cấu hình và vòng đời của dự án Open Data Hub, bao gồm việc triển khai các công cụ nói trên như JupyterHub, Ceph, Spark, Kafka, Seldon, Prometheus và Grafana. Dự án Open Data Hub có thể được tìm thấy trong bảng điều khiển web OpenShift, trong phần nhà điều hành cộng đồng. Do đó, quản trị viên OpenShift có thể chỉ định rằng các dự án OpenShift tương ứng được phân loại là "dự án Open Data Hub". Việc này được thực hiện một lần. Sau đó, nhà phân tích dữ liệu đăng nhập vào không gian dự án của mình thông qua bảng điều khiển web OpenShift và thấy rằng toán tử Kubernetes tương ứng đã được cài đặt và có sẵn cho các dự án của mình. Sau đó, anh ta tạo một phiên bản dự án Open Data Hub chỉ bằng một cú nhấp chuột và ngay lập tức có quyền truy cập vào các công cụ được mô tả ở trên. Và tất cả điều này có thể được cấu hình ở chế độ sẵn sàng cao và khả năng chịu lỗi.

Dự án Open Data Hub là một nền tảng học máy mở dựa trên Red Hat OpenShift

Nếu bạn muốn tự mình thử dự án Open Data Hub, hãy bắt đầu với hướng dẫn cài đặt và hướng dẫn giới thiệu. Có thể tìm thấy chi tiết kỹ thuật của kiến ​​trúc Open Data Hub đây, kế hoạch phát triển dự án – đây. Trong tương lai, chúng tôi dự định triển khai tích hợp bổ sung với Kubeflow, giải quyết một số vấn đề về quy định và bảo mật dữ liệu, đồng thời tổ chức tích hợp với các hệ thống dựa trên quy tắc Drools và Optaplanner. Bày tỏ ý kiến ​​​​của bạn và trở thành người tham gia dự án Mở trung tâm dữ liệu có thể trên trang cộng đồng.

Tóm lại: Những thách thức mở rộng quy mô nghiêm trọng đang ngăn cản các tổ chức nhận ra toàn bộ tiềm năng của trí tuệ nhân tạo và học máy. Red Hat OpenShift từ lâu đã được sử dụng thành công để giải quyết các vấn đề tương tự trong ngành phần mềm. Dự án Open Data Hub, được triển khai trong cộng đồng phát triển nguồn mở, cung cấp kiến ​​trúc tham chiếu để tổ chức toàn bộ chu trình hoạt động AI/ML dựa trên đám mây lai OpenShift. Chúng tôi có một kế hoạch rõ ràng và chu đáo để phát triển dự án này và chúng tôi nghiêm túc trong việc tạo ra một cộng đồng năng động và hiệu quả xung quanh nó để phát triển các giải pháp AI mở trên nền tảng OpenShift.

Nguồn: www.habr.com

Thêm một lời nhận xét