Preambuła: zrządzeniem losu, ze świata nauk akademickich (medycyny) znalazłem się w świecie informatyki, gdzie muszę wykorzystać swoją wiedzę na temat metodologii konstruowania eksperymentu i strategii analizy danych eksperymentalnych, jednak zastosować stos technologii, który jest dla mnie nowy. W procesie opanowywania tych technologii napotykam szereg trudności, które na szczęście udało mi się dotychczas pokonać. Być może ten post będzie przydatny dla tych, którzy również dopiero zaczynają pracę z projektami Apache.
A więc do rzeczy. Natchniony
Ponieważ zwykłe instrukcje dotyczące uruchamiania Airflow nie mają zastosowania w środowisku Windows, użyj tej instrukcji, aby rozwiązać ten problem
Przejdźmy przez kolejne etapy instrukcji (spoiler - w 5 kroku wszystko poszło dobrze):
1. Instalowanie podsystemu Windows dla systemu Linux w celu późniejszej instalacji dystrybucji systemu Linux
To najmniejszy problem, jak mówią:
Panel sterowania → Programy → Programy i funkcje → Włącz lub wyłącz funkcje systemu Windows → Podsystem Windows dla systemu Linux
2. Zainstaluj wybraną dystrybucję Linuksa
Korzystałem z aplikacji
3. Instalacja i aktualizacja pip
sudo apt-get install software-properties-common
sudo apt-add-repository universe
sudo apt-get update
sudo apt-get install python-pip
4. Instalowanie Apache Airflow
export SLUGIFY_USES_TEXT_UNIDECODE=yes
pip install apache-airflow
5. Inicjalizacja bazy danych
I tu zaczęły się moje małe trudności. Instrukcje wymagają wprowadzenia polecenia airflow initdb
i przejdź do następnego kroku. Zawsze jednak otrzymywałem odpowiedź airflow: command not found
. Logiczne jest założenie, że podczas instalacji Apache Airflow pojawiły się trudności i niezbędne pliki po prostu nie są dostępne. Po upewnieniu się, że wszystko jest na swoim miejscu, postanowiłem spróbować podać pełną ścieżkę do pliku airflow (powinna ona wyglądać tak: Полный/путь/до/файла/airflow initdb
). Ale cud się nie wydarzył i odpowiedź była taka sama airflow: command not found
. Próbowałem użyć ścieżki względnej do pliku (./.local/bin/airflow initdb
), co doprowadziło do nowego błędu ModuleNotFoundError: No module named json'
które można przezwyciężyć, aktualizując bibliotekę narzędzie (w moim przypadku do wersji 0.15.4):
pip install werkzeug==0.15.4
Możesz przeczytać więcej o werkzeug
Po tej prostej manipulacji polecenie ./.local/bin/airflow initdb
zakończyło się pomyślnie.
6. Uruchomienie serwera Airflow
To nie koniec trudności z dostępem do przepływu powietrza. Uruchamianie polecenia ./.local/bin/airflow webserver -p 8080
spowodowało błąd No such file or directory
. Prawdopodobnie doświadczony użytkownik Ubuntu od razu próbowałby przezwyciężyć takie trudności z dostępem do pliku za pomocą polecenia export PATH=$PATH:~/.local/bin/
(to znaczy dodanie /.local/bin/ do istniejącej ścieżki wyszukiwania pliku wykonywalnego PATH), ale ten post jest przeznaczony dla tych, którzy pracują głównie z systemem Windows i mogą nie uważać tego rozwiązania za oczywiste.
Po opisanej powyżej manipulacji polecenie ./.local/bin/airflow webserver -p 8080
został pomyślnie ukończony.
7. Adres URL:
Jeśli na poprzednich etapach wszystko poszło dobrze, jesteś gotowy na podbicie analitycznych szczytów.
Mam nadzieję, że opisane powyżej doświadczenia z instalacją Apache Airflow na Windows 10 przydadzą się początkującym użytkownikom i przyspieszą ich wejście w świat nowoczesnych narzędzi analitycznych.
Następnym razem chciałbym kontynuować temat i opowiedzieć o doświadczeniach wykorzystania Apache Airflow w zakresie analizy zachowań użytkowników aplikacji mobilnych.
Źródło: www.habr.com