Kinh nghiệm cài đặt Apache Airflow trên Windows 10

Lời nói đầu: theo ý muốn của số phận, từ thế giới khoa học hàn lâm (y học), tôi thấy mình đang ở trong thế giới công nghệ thông tin, nơi tôi phải sử dụng kiến ​​​​thức của mình về phương pháp xây dựng một thí nghiệm và các chiến lược phân tích dữ liệu thực nghiệm, tuy nhiên, hãy áp dụng một kho công nghệ mới đối với tôi. Trong quá trình làm chủ những công nghệ này, tôi gặp phải một số khó khăn, may mắn thay cho đến nay tôi đã khắc phục được. Có lẽ bài đăng này sẽ hữu ích cho những ai mới bắt đầu làm việc với các dự án Apache.

Vì vậy, đến mức. Lấy cảm hứng bài báo Yury Emelyanov về khả năng của Apache Airflow trong lĩnh vực tự động hóa các quy trình phân tích, tôi muốn bắt đầu sử dụng bộ thư viện được đề xuất trong công việc của mình. Những người chưa hoàn toàn quen thuộc với Apache Airflow có thể quan tâm đến phần tổng quan ngắn gọn bài viết trên trang web của Thư viện Quốc gia. N. E. Bauman.

Vì các hướng dẫn thông thường để chạy Airflow dường như không áp dụng được trong môi trường Windows, hãy sử dụng hướng dẫn này để giải quyết vấn đề này người đóng tàu trong trường hợp của tôi, nó sẽ dư thừa, tôi bắt đầu tìm kiếm các giải pháp khác. Thật may mắn cho tôi, tôi không phải là người đầu tiên đi trên con đường này nên tôi đã tìm được một video hướng dẫn Cách cài đặt Apache Airflow trên Windows 10 mà không cần sử dụng Docker. Tuy nhiên, như thường lệ, khi làm theo các bước được đề xuất, khó khăn sẽ nảy sinh và tôi tin rằng không chỉ đối với tôi. Vì vậy, tôi muốn nói về trải nghiệm cài đặt Apache Airflow của mình, có thể nó sẽ giúp ai đó tiết kiệm được một chút thời gian.

Chúng ta hãy xem qua các bước của hướng dẫn (spoiler - mọi thứ đều ổn ở bước thứ 5):

1. Cài đặt Hệ thống con Windows cho Linux để cài đặt các bản phân phối Linux tiếp theo

Đây là vấn đề ít nhất, như họ nói:

Bảng điều khiển → Chương trình → Chương trình và tính năng → Bật hoặc tắt các tính năng của Windows → Hệ thống con Windows cho Linux

2. Cài đặt bản phân phối Linux mà bạn chọn

Tôi đã sử dụng ứng dụng Ubuntu.

3. Cài đặt và cập nhật pip

sudo apt-get install software-properties-common
sudo apt-add-repository universe
sudo apt-get update
sudo apt-get install python-pip

4. Cài đặt luồng không khí Apache

export SLUGIFY_USES_TEXT_UNIDECODE=yes
pip install apache-airflow

5. Khởi tạo cơ sở dữ liệu

Và đây là nơi những khó khăn nho nhỏ của tôi bắt đầu. Hướng dẫn yêu cầu bạn nhập lệnh airflow initdb và chuyển sang bước tiếp theo. Tuy nhiên tôi luôn nhận được câu trả lời airflow: command not found. Thật hợp lý khi cho rằng những khó khăn nảy sinh trong quá trình cài đặt Apache Airflow và đơn giản là không có sẵn các tệp cần thiết. Sau khi đảm bảo rằng mọi thứ đều ở đúng vị trí của nó, tôi quyết định thử chỉ định đường dẫn đầy đủ đến tệp luồng khí (nó sẽ trông như thế này: Полный/путь/до/файла/airflow initdb). Nhưng điều kỳ diệu đã không xảy ra và câu trả lời vẫn như cũ airflow: command not found. Tôi đã thử sử dụng đường dẫn tương đối đến tệp (./.local/bin/airflow initdb), dẫn đến một lỗi mới ModuleNotFoundError: No module named json'có thể khắc phục bằng cách cập nhật thư viện dụng cụ (trong trường hợp của tôi lên tới phiên bản 0.15.4):

pip install werkzeug==0.15.4

Bạn có thể đọc thêm về werkzeug đây.

Sau thao tác đơn giản này, lệnh ./.local/bin/airflow initdb đã được hoàn thành thành công.

6. Khởi chạy máy chủ Airflow

Đây chưa phải là dấu chấm hết cho những khó khăn trong việc tiếp cận luồng không khí. Chạy một lệnh ./.local/bin/airflow webserver -p 8080 dẫn đến một lỗi No such file or directory. Có thể, một người dùng Ubuntu có kinh nghiệm sẽ ngay lập tức cố gắng khắc phục những khó khăn như vậy khi truy cập tệp bằng lệnh export PATH=$PATH:~/.local/bin/ (tức là thêm /.local/bin/ vào đường dẫn tìm kiếm thực thi PATH hiện có), nhưng bài đăng này dành cho những người chủ yếu làm việc với Windows và có thể không nghĩ rằng giải pháp này là hiển nhiên.

Sau thao tác được mô tả ở trên, lệnh ./.local/bin/airflow webserver -p 8080 đã được hoàn thành thành công.

7. Địa chỉ: localhost: 8080 /

Nếu mọi thứ diễn ra tốt đẹp ở các giai đoạn trước thì bạn đã sẵn sàng chinh phục các đỉnh cao phân tích.

Tôi hy vọng rằng trải nghiệm được mô tả ở trên khi cài đặt Apache Airflow trên Windows 10 sẽ hữu ích cho người dùng mới làm quen và sẽ tăng tốc độ tiếp cận vũ trụ của các công cụ phân tích hiện đại.

Lần tới mình xin tiếp tục chủ đề và nói về trải nghiệm sử dụng Apache Airflow trong lĩnh vực phân tích hành vi người dùng ứng dụng di động.

Nguồn: www.habr.com

Thêm một lời nhận xét