Experiență în instalarea Apache Airflow pe Windows 10

preambul: prin voința sorții, din lumea științei academice (medicinei) m-am regăsit în lumea tehnologiei informației, unde trebuie să-mi folosesc cunoștințele despre metodologia de construire a unui experiment și strategiile de analiză a datelor experimentale, totuși, aplic o stivă de tehnologie care este nouă pentru mine. În procesul de stăpânire a acestor tehnologii, întâmpin o serie de dificultăți, care, din fericire, au fost depășite până acum. Poate că această postare va fi utilă celor care abia încep să lucreze cu proiecte Apache.

Deci, la obiect. Inspirat articole Yuri Emelyanov despre capacitățile Apache Airflow în domeniul automatizării procedurilor analitice, am vrut să încep să folosesc setul de biblioteci propus în munca mea. Cei care nu sunt încă deloc familiarizați cu Apache Airflow ar putea fi interesați de o scurtă prezentare generală articol pe site-ul Bibliotecii Naționale. N. E. Bauman.

Deoarece instrucțiunile obișnuite pentru rularea Airflow nu par să se aplice într-un mediu Windows, utilizați aceasta pentru a rezolva această problemă docher in cazul meu ar fi redundant, am inceput sa caut alte solutii. Din fericire pentru mine, nu am fost primul pe acest drum, așa că am reușit să găsesc un minunat instructiuni video Cum se instalează Apache Airflow pe Windows 10 fără a utiliza Docker. Dar, așa cum se întâmplă adesea, când urmează pașii recomandați, apar dificultăți și, cred, nu numai pentru mine. Prin urmare, aș dori să vorbesc despre experiența mea de instalare a Apache Airflow, poate că va economisi cuiva puțin timp.

Să parcurgem pașii instrucțiunilor (spoiler - totul a mers bine la pasul 5):

1. Instalarea subsistemului Windows pentru Linux pentru instalarea ulterioară a distribuțiilor Linux

Aceasta este cea mai mică dintre probleme, după cum se spune:

Panou de control → Programe → Programe și caracteristici → Activați sau dezactivați funcțiile Windows → Subsistemul Windows pentru Linux

2. Instalați distribuția Linux la alegere

Am folosit aplicația Ubuntu.

3. Instalare și actualizare pip

sudo apt-get install software-properties-common
sudo apt-add-repository universe
sudo apt-get update
sudo apt-get install python-pip

4. Instalarea Apache Airflow

export SLUGIFY_USES_TEXT_UNIDECODE=yes
pip install apache-airflow

5. Inițializarea bazei de date

Și aici au început micile mele dificultăți. Instrucțiunile vă cer să introduceți comanda airflow initdb și treceți la pasul următor. Totuși, întotdeauna am primit un răspuns airflow: command not found. Este logic să presupunem că au apărut dificultăți în timpul instalării Apache Airflow și pur și simplu fișierele necesare nu sunt disponibile. După ce m-am asigurat că totul este unde ar trebui să fie, am decis să încerc să specific calea completă către fișierul flux de aer (ar trebui să arate astfel: Полный/путь/до/файла/airflow initdb). Dar miracolul nu s-a întâmplat și răspunsul a fost același airflow: command not found. Am încercat să folosesc o cale relativă către fișier (./.local/bin/airflow initdb), ceea ce a dus la o nouă eroare ModuleNotFoundError: No module named json'care poate fi depășită prin actualizarea bibliotecii instrument (în cazul meu până la versiunea 0.15.4):

pip install werkzeug==0.15.4

Puteți citi mai multe despre werkzeug aici.

După această manipulare simplă comanda ./.local/bin/airflow initdb a fost finalizat cu succes.

6. Lansarea serverului Airflow

Acesta nu este sfârșitul dificultăților legate de accesarea fluxului de aer. Rularea unei comenzi ./.local/bin/airflow webserver -p 8080 a avut ca rezultat o eroare No such file or directory. Probabil, un utilizator Ubuntu cu experiență ar încerca imediat să depășească astfel de dificultăți în accesarea fișierului folosind comanda export PATH=$PATH:~/.local/bin/ (adică adăugarea /.local/bin/ la calea de căutare executabilă PATH existentă), dar această postare este destinată celor care lucrează în principal cu Windows și poate că nu cred că această soluție este evidentă.

După manipularea descrisă mai sus, comanda ./.local/bin/airflow webserver -p 8080 a fost finalizată cu succes.

7.URL: localhost: 8080 /

Dacă totul a mers bine în etapele anterioare, atunci ești gata să cucerești vârfurile analitice.

Sper că experiența descrisă mai sus în instalarea Apache Airflow pe Windows 10 va fi utilă utilizatorilor începători și le va grăbi intrarea în universul instrumentelor moderne de analiză.

Data viitoare aș dori să continui subiectul și să vorbesc despre experiența utilizării Apache Airflow în domeniul analizei comportamentului utilizatorilor aplicațiilor mobile.

Sursa: www.habr.com

Adauga un comentariu