Lời nói đầu: theo ý muốn của số phận, từ thế giới khoa học hàn lâm (y học), tôi thấy mình đang ở trong thế giới công nghệ thông tin, nơi tôi phải sử dụng kiến thức của mình về phương pháp xây dựng một thí nghiệm và các chiến lược phân tích dữ liệu thực nghiệm, tuy nhiên, hãy áp dụng một kho công nghệ mới đối với tôi. Trong quá trình làm chủ những công nghệ này, tôi gặp phải một số khó khăn, may mắn thay cho đến nay tôi đã khắc phục được. Có lẽ bài đăng này sẽ hữu ích cho những ai mới bắt đầu làm việc với các dự án Apache.
Vì vậy, đến mức. Lấy cảm hứng
Vì các hướng dẫn thông thường để chạy Airflow dường như không áp dụng được trong môi trường Windows, hãy sử dụng hướng dẫn này để giải quyết vấn đề này
Chúng ta hãy xem qua các bước của hướng dẫn (spoiler - mọi thứ đều ổn ở bước thứ 5):
1. Cài đặt Hệ thống con Windows cho Linux để cài đặt các bản phân phối Linux tiếp theo
Đây là vấn đề ít nhất, như họ nói:
Bảng điều khiển → Chương trình → Chương trình và tính năng → Bật hoặc tắt các tính năng của Windows → Hệ thống con Windows cho Linux
2. Cài đặt bản phân phối Linux mà bạn chọn
Tôi đã sử dụng ứng dụng
3. Cài đặt và cập nhật pip
sudo apt-get install software-properties-common
sudo apt-add-repository universe
sudo apt-get update
sudo apt-get install python-pip
4. Cài đặt luồng không khí Apache
export SLUGIFY_USES_TEXT_UNIDECODE=yes
pip install apache-airflow
5. Khởi tạo cơ sở dữ liệu
Và đây là nơi những khó khăn nho nhỏ của tôi bắt đầu. Hướng dẫn yêu cầu bạn nhập lệnh airflow initdb
và chuyển sang bước tiếp theo. Tuy nhiên tôi luôn nhận được câu trả lời airflow: command not found
. Thật hợp lý khi cho rằng những khó khăn nảy sinh trong quá trình cài đặt Apache Airflow và đơn giản là không có sẵn các tệp cần thiết. Sau khi đảm bảo rằng mọi thứ đều ở đúng vị trí của nó, tôi quyết định thử chỉ định đường dẫn đầy đủ đến tệp luồng khí (nó sẽ trông như thế này: Полный/путь/до/файла/airflow initdb
). Nhưng điều kỳ diệu đã không xảy ra và câu trả lời vẫn như cũ airflow: command not found
. Tôi đã thử sử dụng đường dẫn tương đối đến tệp (./.local/bin/airflow initdb
), dẫn đến một lỗi mới ModuleNotFoundError: No module named json'
có thể khắc phục bằng cách cập nhật thư viện dụng cụ (trong trường hợp của tôi lên tới phiên bản 0.15.4):
pip install werkzeug==0.15.4
Bạn có thể đọc thêm về werkzeug
Sau thao tác đơn giản này, lệnh ./.local/bin/airflow initdb
đã được hoàn thành thành công.
6. Khởi chạy máy chủ Airflow
Đây chưa phải là dấu chấm hết cho những khó khăn trong việc tiếp cận luồng không khí. Chạy một lệnh ./.local/bin/airflow webserver -p 8080
dẫn đến một lỗi No such file or directory
. Có thể, một người dùng Ubuntu có kinh nghiệm sẽ ngay lập tức cố gắng khắc phục những khó khăn như vậy khi truy cập tệp bằng lệnh export PATH=$PATH:~/.local/bin/
(tức là thêm /.local/bin/ vào đường dẫn tìm kiếm thực thi PATH hiện có), nhưng bài đăng này dành cho những người chủ yếu làm việc với Windows và có thể không nghĩ rằng giải pháp này là hiển nhiên.
Sau thao tác được mô tả ở trên, lệnh ./.local/bin/airflow webserver -p 8080
đã được hoàn thành thành công.
7. Địa chỉ:
Nếu mọi thứ diễn ra tốt đẹp ở các giai đoạn trước thì bạn đã sẵn sàng chinh phục các đỉnh cao phân tích.
Tôi hy vọng rằng trải nghiệm được mô tả ở trên khi cài đặt Apache Airflow trên Windows 10 sẽ hữu ích cho người dùng mới làm quen và sẽ tăng tốc độ tiếp cận vũ trụ của các công cụ phân tích hiện đại.
Lần tới mình xin tiếp tục chủ đề và nói về trải nghiệm sử dụng Apache Airflow trong lĩnh vực phân tích hành vi người dùng ứng dụng di động.
Nguồn: www.habr.com