Ervaring met het installeren van Apache Airflow op Windows 10

Преамбула: door de wil van het lot, vanuit de wereld van de academische wetenschap (geneeskunde) kwam ik terecht in de wereld van de informatietechnologie, waar ik mijn kennis van de methodologie van het construeren van een experiment en strategieën voor het analyseren van experimentele gegevens moet gebruiken, maar van toepassing zijn een technologiestapel die nieuw voor mij is. Bij het beheersen van deze technologieën kom ik een aantal moeilijkheden tegen, die gelukkig tot nu toe zijn overwonnen. Misschien is dit bericht nuttig voor degenen die ook net met Apache-projecten beginnen te werken.

Dus ter zake. Geïnspireerd Lidwoord Yuri Emelyanov over de mogelijkheden van Apache Airflow op het gebied van automatisering van analytische procedures, ik wilde de voorgestelde reeks bibliotheken in mijn werk gaan gebruiken. Degenen die nog helemaal niet bekend zijn met Apache Airflow zijn wellicht geïnteresseerd in een kort overzicht artikel op de website van de Nationale Bibliotheek. N.E. Bauman.

Omdat de gebruikelijke instructies voor het uitvoeren van Airflow niet van toepassing lijken te zijn in een Windows-omgeving, kunt u deze gebruiken om dit probleem op te lossen havenarbeider in mijn geval zou het overbodig zijn, ik ben op zoek gegaan naar andere oplossingen. Gelukkig voor mij was ik niet de eerste op dit pad, dus ik heb een prachtige gevonden video-instructies Hoe Apache Airflow op Windows 10 te installeren zonder Docker te gebruiken. Maar zoals vaak gebeurt, ontstaan ​​er bij het volgen van de aanbevolen stappen moeilijkheden, en naar mijn mening niet alleen voor mij. Daarom zou ik graag willen praten over mijn ervaring met het installeren van Apache Airflow, misschien bespaart het iemand wat tijd.

Laten we de stappen van de instructies doornemen (spoiler - alles ging goed bij de 5e stap):

1. Het Windows-subsysteem voor Linux installeren voor de daaropvolgende installatie van Linux-distributies

Dit is het minste van de problemen, zoals ze zeggen:

Configuratiescherm → Programma's → Programma's en onderdelen → Windows-functies in- of uitschakelen → Windows-subsysteem voor Linux

2. Installeer de Linux-distributie van uw keuze

Ik heb de applicatie gebruikt Ubuntu.

3. Installatie- en updatepip

sudo apt-get install software-properties-common
sudo apt-add-repository universe
sudo apt-get update
sudo apt-get install python-pip

4. Apache Airflow installeren

export SLUGIFY_USES_TEXT_UNIDECODE=yes
pip install apache-airflow

5. Database-initialisatie

En dit is waar mijn kleine moeilijkheden begonnen. De instructies vereisen dat u de opdracht invoert airflow initdb en ga verder met de volgende stap. Ik kreeg echter altijd antwoord airflow: command not found. Het is logisch om aan te nemen dat er problemen zijn ontstaan ​​tijdens de installatie van Apache Airflow en dat de benodigde bestanden eenvoudigweg niet beschikbaar zijn. Nadat ik er zeker van was dat alles was waar het zou moeten zijn, besloot ik te proberen het volledige pad naar het luchtstroombestand op te geven (het zou er als volgt uit moeten zien: Полный/путь/до/файла/airflow initdb). Maar het wonder gebeurde niet en het antwoord was hetzelfde airflow: command not found. Ik heb geprobeerd een relatief pad naar het bestand te gebruiken (./.local/bin/airflow initdb), wat tot een nieuwe fout leidde ModuleNotFoundError: No module named json'Dit probleem kan worden verholpen door de bibliotheek bij te werken gereedschap (in mijn geval tot versie 0.15.4):

pip install werkzeug==0.15.4

U kunt meer lezen over werkzeug hier.

Na deze eenvoudige manipulatie het commando ./.local/bin/airflow initdb werd met succes afgerond.

6. Starten van de Airflow-server

Dit is niet het einde van de problemen met toegang tot de luchtstroom. Een opdracht uitvoeren ./.local/bin/airflow webserver -p 8080 resulteerde in een fout No such file or directory. Waarschijnlijk zou een ervaren Ubuntu-gebruiker dergelijke problemen bij het openen van het bestand onmiddellijk proberen te overwinnen door de opdracht te gebruiken export PATH=$PATH:~/.local/bin/ (dat wil zeggen: het toevoegen van /.local/bin/ aan het bestaande uitvoerbare PATH-zoekpad), maar dit bericht is bedoeld voor degenen die voornamelijk met Windows werken en misschien niet denken dat deze oplossing voor de hand ligt.

Na de hierboven beschreven manipulatie wordt het commando ./.local/bin/airflow webserver -p 8080 werd met succes afgerond.

7.URL: localhost: 8080 /

Als alles in de voorgaande fasen goed is gegaan, ben je klaar om analytische pieken te overwinnen.

Ik hoop dat de hierboven beschreven ervaring bij het installeren van Apache Airflow op Windows 10 nuttig zal zijn voor beginnende gebruikers en hun toegang tot het universum van moderne analysetools zal versnellen.

De volgende keer wil ik graag doorgaan met het onderwerp en praten over de ervaring van het gebruik van Apache Airflow op het gebied van het analyseren van gebruikersgedrag van mobiele applicaties.

Bron: www.habr.com

Voeg een reactie