Expérience de l'installation d'Apache Airflow sur Windows 10

Préambule: par la volonté du destin, issu du monde des sciences académiques (médecine) je me suis retrouvé dans le monde des technologies de l'information, où je dois utiliser mes connaissances de la méthodologie de construction d'une expérience et des stratégies d'analyse des données expérimentales, cependant, appliquer une pile technologique qui est nouvelle pour moi. Dans le processus de maîtrise de ces technologies, je rencontre un certain nombre de difficultés qui, heureusement, ont jusqu'à présent été surmontées. Peut-être que cet article sera utile à ceux qui commencent tout juste à travailler avec des projets Apache.

Donc, au point. Inspiré article Yuri Emelyanov à propos des capacités d'Apache Airflow dans le domaine de l'automatisation des procédures analytiques, j'ai voulu commencer à utiliser l'ensemble de bibliothèques proposé dans mon travail. Ceux qui ne sont pas encore du tout familiers avec Apache Airflow pourraient être intéressés par un bref aperçu article sur le site de la Bibliothèque nationale. N.E. Bauman.

Étant donné que les instructions habituelles pour exécuter Airflow ne semblent pas s'appliquer dans un environnement Windows, utilisez-la pour résoudre ce problème. docker dans mon cas, ce serait redondant, j'ai commencé à chercher d'autres solutions. Heureusement pour moi, je n'étais pas le premier sur ce chemin, j'ai donc réussi à trouver un merveilleux instruction vidéo Comment installer Apache Airflow sur Windows 10 sans utiliser Docker. Mais, comme cela arrive souvent, en suivant les étapes recommandées, des difficultés surgissent et, je crois, pas seulement pour moi. Par conséquent, je voudrais parler de mon expérience dans l'installation d'Apache Airflow, cela fera peut-être gagner un peu de temps à quelqu'un.

Passons en revue les étapes des instructions (spoiler - tout s'est bien passé à la 5ème étape) :

1. Installation du sous-système Windows pour Linux pour l'installation ultérieure des distributions Linux

C'est le moindre des problèmes, comme on dit :

Panneau de configuration → Programmes → Programmes et fonctionnalités → Activer ou désactiver des fonctionnalités Windows → Sous-système Windows pour Linux

2. Installez la distribution Linux de votre choix

J'ai utilisé l'application Ubuntu.

3. Installation et mise à jour pip

sudo apt-get install software-properties-common
sudo apt-add-repository universe
sudo apt-get update
sudo apt-get install python-pip

4. Installation d'Apache Airflow

export SLUGIFY_USES_TEXT_UNIDECODE=yes
pip install apache-airflow

5. Initialisation de la base de données

Et c'est là que mes petites difficultés ont commencé. Les instructions vous demandent d'entrer la commande airflow initdb et passez à l'étape suivante. Cependant, j'ai toujours reçu une réponse airflow: command not found. Il est logique de supposer que des difficultés sont survenues lors de l'installation d'Apache Airflow et que les fichiers nécessaires ne sont tout simplement pas disponibles. Après m'être assuré que tout était là où il devrait être, j'ai décidé d'essayer de spécifier le chemin complet du fichier airflow (il devrait ressembler à ceci : Полный/путь/до/файла/airflow initdb). Mais le miracle ne s'est pas produit et la réponse était la même airflow: command not found. J'ai essayé d'utiliser un chemin relatif vers le fichier (./.local/bin/airflow initdb), ce qui a conduit à une nouvelle erreur ModuleNotFoundError: No module named json'qui peut être surmonté en mettant à jour la bibliothèque werkzeug (dans mon cas jusqu'à la version 0.15.4) :

pip install werkzeug==0.15.4

Vous pouvez en savoir plus sur werkzeug ici.

Après cette simple manipulation la commande ./.local/bin/airflow initdb a été complété avec succès.

6. Lancement du serveur Airflow

Ce n’est pas la fin des difficultés d’accès au flux d’air. Exécuter une commande ./.local/bin/airflow webserver -p 8080 a entraîné une erreur No such file or directory. Un utilisateur expérimenté d'Ubuntu essaierait probablement immédiatement de surmonter ces difficultés d'accès au fichier en utilisant la commande export PATH=$PATH:~/.local/bin/ (c'est-à-dire en ajoutant /.local/bin/ au chemin de recherche de l'exécutable PATH existant), mais cet article est destiné à ceux qui travaillent principalement avec Windows et ne pensent peut-être pas que cette solution est évidente.

Après la manipulation décrite ci-dessus, la commande ./.local/bin/airflow webserver -p 8080 a été réalisé avec succès.

7. URL : localhost: 8080 /

Si tout s'est bien passé lors des étapes précédentes, alors vous êtes prêt à conquérir les sommets analytiques.

J'espère que l'expérience décrite ci-dessus lors de l'installation d'Apache Airflow sur Windows 10 sera utile aux utilisateurs novices et accélérera leur entrée dans l'univers des outils d'analyse modernes.

La prochaine fois, j'aimerais continuer le sujet et parler de l'expérience d'utilisation d'Apache Airflow dans le domaine de l'analyse du comportement des utilisateurs d'applications mobiles.

Source: habr.com

Ajouter un commentaire