Préambule: par la volonté du destin, issu du monde des sciences académiques (médecine) je me suis retrouvé dans le monde des technologies de l'information, où je dois utiliser mes connaissances de la méthodologie de construction d'une expérience et des stratégies d'analyse des données expérimentales, cependant, appliquer une pile technologique qui est nouvelle pour moi. Dans le processus de maîtrise de ces technologies, je rencontre un certain nombre de difficultés qui, heureusement, ont jusqu'à présent été surmontées. Peut-être que cet article sera utile à ceux qui commencent tout juste à travailler avec des projets Apache.
Donc, au point. Inspiré
Étant donné que les instructions habituelles pour exécuter Airflow ne semblent pas s'appliquer dans un environnement Windows, utilisez-la pour résoudre ce problème.
Passons en revue les étapes des instructions (spoiler - tout s'est bien passé à la 5ème étape) :
1. Installation du sous-système Windows pour Linux pour l'installation ultérieure des distributions Linux
C'est le moindre des problèmes, comme on dit :
Panneau de configuration → Programmes → Programmes et fonctionnalités → Activer ou désactiver des fonctionnalités Windows → Sous-système Windows pour Linux
2. Installez la distribution Linux de votre choix
J'ai utilisé l'application
3. Installation et mise à jour pip
sudo apt-get install software-properties-common
sudo apt-add-repository universe
sudo apt-get update
sudo apt-get install python-pip
4. Installation d'Apache Airflow
export SLUGIFY_USES_TEXT_UNIDECODE=yes
pip install apache-airflow
5. Initialisation de la base de données
Et c'est là que mes petites difficultés ont commencé. Les instructions vous demandent d'entrer la commande airflow initdb
et passez à l'étape suivante. Cependant, j'ai toujours reçu une réponse airflow: command not found
. Il est logique de supposer que des difficultés sont survenues lors de l'installation d'Apache Airflow et que les fichiers nécessaires ne sont tout simplement pas disponibles. Après m'être assuré que tout était là où il devrait être, j'ai décidé d'essayer de spécifier le chemin complet du fichier airflow (il devrait ressembler à ceci : Полный/путь/до/файла/airflow initdb
). Mais le miracle ne s'est pas produit et la réponse était la même airflow: command not found
. J'ai essayé d'utiliser un chemin relatif vers le fichier (./.local/bin/airflow initdb
), ce qui a conduit à une nouvelle erreur ModuleNotFoundError: No module named json'
qui peut être surmonté en mettant à jour la bibliothèque werkzeug (dans mon cas jusqu'à la version 0.15.4) :
pip install werkzeug==0.15.4
Vous pouvez en savoir plus sur werkzeug
Après cette simple manipulation la commande ./.local/bin/airflow initdb
a été complété avec succès.
6. Lancement du serveur Airflow
Ce n’est pas la fin des difficultés d’accès au flux d’air. Exécuter une commande ./.local/bin/airflow webserver -p 8080
a entraîné une erreur No such file or directory
. Un utilisateur expérimenté d'Ubuntu essaierait probablement immédiatement de surmonter ces difficultés d'accès au fichier en utilisant la commande export PATH=$PATH:~/.local/bin/
(c'est-à-dire en ajoutant /.local/bin/ au chemin de recherche de l'exécutable PATH existant), mais cet article est destiné à ceux qui travaillent principalement avec Windows et ne pensent peut-être pas que cette solution est évidente.
Après la manipulation décrite ci-dessus, la commande ./.local/bin/airflow webserver -p 8080
a été réalisé avec succès.
7. URL :
Si tout s'est bien passé lors des étapes précédentes, alors vous êtes prêt à conquérir les sommets analytiques.
J'espère que l'expérience décrite ci-dessus lors de l'installation d'Apache Airflow sur Windows 10 sera utile aux utilisateurs novices et accélérera leur entrée dans l'univers des outils d'analyse modernes.
La prochaine fois, j'aimerais continuer le sujet et parler de l'expérience d'utilisation d'Apache Airflow dans le domaine de l'analyse du comportement des utilisateurs d'applications mobiles.
Source: habr.com