Doświadczenie w instalowaniu Apache Airflow w systemie Windows 10

Preambuła: zrządzeniem losu, ze świata nauk akademickich (medycyny) znalazłem się w świecie informatyki, gdzie muszę wykorzystać swoją wiedzę na temat metodologii konstruowania eksperymentu i strategii analizy danych eksperymentalnych, jednak zastosować stos technologii, który jest dla mnie nowy. W procesie opanowywania tych technologii napotykam szereg trudności, które na szczęście udało mi się dotychczas pokonać. Być może ten post będzie przydatny dla tych, którzy również dopiero zaczynają pracę z projektami Apache.

A więc do rzeczy. Natchniony artykuły Jurija Emelyanova o możliwościach Apache Airflow w zakresie automatyzacji procedur analitycznych, chciałem zacząć wykorzystywać w swojej pracy proponowany zestaw bibliotek. Tych, którzy nie są jeszcze zaznajomieni z Apache Airflow, może zainteresuje krótki przegląd artykuł na stronie internetowej Biblioteki Narodowej. N. E. Baumana.

Ponieważ zwykłe instrukcje dotyczące uruchamiania Airflow nie mają zastosowania w środowisku Windows, użyj tej instrukcji, aby rozwiązać ten problem doker w moim przypadku byłoby to zbędne, zacząłem szukać innych rozwiązań. Na szczęście dla mnie nie byłem pierwszy na tej drodze, więc udało mi się trafić na coś wspaniałego instrukcje wideo Jak zainstalować Apache Airflow w systemie Windows 10 bez użycia Dockera. Jednak, jak to często bywa, po wykonaniu zalecanych kroków pojawiają się trudności i myślę, że nie tylko dla mnie. Dlatego chciałbym opowiedzieć o swoich doświadczeniach z instalacją Apache Airflow, może komuś zaoszczędzi to trochę czasu.

Przejdźmy przez kolejne etapy instrukcji (spoiler - w 5 kroku wszystko poszło dobrze):

1. Instalowanie podsystemu Windows dla systemu Linux w celu późniejszej instalacji dystrybucji systemu Linux

To najmniejszy problem, jak mówią:

Panel sterowania → Programy → Programy i funkcje → Włącz lub wyłącz funkcje systemu Windows → Podsystem Windows dla systemu Linux

2. Zainstaluj wybraną dystrybucję Linuksa

Korzystałem z aplikacji Ubuntu.

3. Instalacja i aktualizacja pip

sudo apt-get install software-properties-common
sudo apt-add-repository universe
sudo apt-get update
sudo apt-get install python-pip

4. Instalowanie Apache Airflow

export SLUGIFY_USES_TEXT_UNIDECODE=yes
pip install apache-airflow

5. Inicjalizacja bazy danych

I tu zaczęły się moje małe trudności. Instrukcje wymagają wprowadzenia polecenia airflow initdb i przejdź do następnego kroku. Zawsze jednak otrzymywałem odpowiedź airflow: command not found. Logiczne jest założenie, że podczas instalacji Apache Airflow pojawiły się trudności i niezbędne pliki po prostu nie są dostępne. Po upewnieniu się, że wszystko jest na swoim miejscu, postanowiłem spróbować podać pełną ścieżkę do pliku airflow (powinna ona wyglądać tak: Полный/путь/до/файла/airflow initdb). Ale cud się nie wydarzył i odpowiedź była taka sama airflow: command not found. Próbowałem użyć ścieżki względnej do pliku (./.local/bin/airflow initdb), co doprowadziło do nowego błędu ModuleNotFoundError: No module named json'które można przezwyciężyć, aktualizując bibliotekę narzędzie (w moim przypadku do wersji 0.15.4):

pip install werkzeug==0.15.4

Możesz przeczytać więcej o werkzeug tutaj.

Po tej prostej manipulacji polecenie ./.local/bin/airflow initdb zakończyło się pomyślnie.

6. Uruchomienie serwera Airflow

To nie koniec trudności z dostępem do przepływu powietrza. Uruchamianie polecenia ./.local/bin/airflow webserver -p 8080 spowodowało błąd No such file or directory. Prawdopodobnie doświadczony użytkownik Ubuntu od razu próbowałby przezwyciężyć takie trudności z dostępem do pliku za pomocą polecenia export PATH=$PATH:~/.local/bin/ (to znaczy dodanie /.local/bin/ do istniejącej ścieżki wyszukiwania pliku wykonywalnego PATH), ale ten post jest przeznaczony dla tych, którzy pracują głównie z systemem Windows i mogą nie uważać tego rozwiązania za oczywiste.

Po opisanej powyżej manipulacji polecenie ./.local/bin/airflow webserver -p 8080 został pomyślnie ukończony.

7. Adres URL: localhost: 8080 /

Jeśli na poprzednich etapach wszystko poszło dobrze, jesteś gotowy na podbicie analitycznych szczytów.

Mam nadzieję, że opisane powyżej doświadczenia z instalacją Apache Airflow na Windows 10 przydadzą się początkującym użytkownikom i przyspieszą ich wejście w świat nowoczesnych narzędzi analitycznych.

Następnym razem chciałbym kontynuować temat i opowiedzieć o doświadczeniach wykorzystania Apache Airflow w zakresie analizy zachowań użytkowników aplikacji mobilnych.

Źródło: www.habr.com

Dodaj komentarz