Experiència instal·lant Apache Airflow a Windows 10

Preàmbul: per voluntat del destí, des del món de la ciència acadèmica (medicina) em vaig trobar en el món de les tecnologies de la informació, on he d'utilitzar els meus coneixements sobre la metodologia de construcció d'un experiment i estratègies per a l'anàlisi de dades experimentals, però, aplicar una pila de tecnologia que és nova per a mi. En el procés de domini d'aquestes tecnologies, em trobo amb una sèrie de dificultats que, afortunadament, fins ara s'han superat. Potser aquesta publicació serà útil per a aquells que també estan començant a treballar amb projectes Apache.

Per tant, fins al punt. Inspirat article Yuri Emelyanov sobre les capacitats d'Apache Airflow en el camp de l'automatització de procediments analítics, volia començar a utilitzar el conjunt de biblioteques proposat en el meu treball. Aquells que encara no estiguin gens familiaritzats amb Apache Airflow poden estar interessats en una breu visió general article al web de la Biblioteca Nacional. N. E. Bauman.

Com que les instruccions habituals per executar Airflow no semblen aplicar-se en un entorn Windows, utilitzeu-ho per resoldre aquest problema docker en el meu cas seria redundant, vaig començar a buscar altres solucions. Afortunadament per a mi, no vaig ser el primer en aquest camí, així que vaig aconseguir trobar un meravellós instrucció de vídeo Com instal·lar Apache Airflow a Windows 10 sense utilitzar Docker. Però, com passa sovint, en seguir els passos recomanats, sorgeixen dificultats i, crec, no només per a mi. Per tant, m'agradaria parlar de la meva experiència amb la instal·lació d'Apache Airflow, potser estalviarà a algú una mica de temps.

Anem a seguir els passos de les instruccions (spoiler: tot va anar bé al 5è pas):

1. Instal·lació del subsistema Windows per a Linux per a la instal·lació posterior de distribucions de Linux

Aquest és el menor dels problemes, com diuen:

Tauler de control → Programes → Programes i funcions → Activa o desactiva les funcions de Windows → Subsistema de Windows per a Linux

2. Instal·leu la distribució Linux que trieu

Vaig utilitzar l'aplicació Ubuntu.

3. Instal·lació i actualització pip

sudo apt-get install software-properties-common
sudo apt-add-repository universe
sudo apt-get update
sudo apt-get install python-pip

4. Instal·lació d'Apache Airflow

export SLUGIFY_USES_TEXT_UNIDECODE=yes
pip install apache-airflow

5. Inicialització de la base de dades

I aquí va començar les meves petites dificultats. Les instruccions requereixen que introduïu l'ordre airflow initdb i passar al següent pas. Tanmateix, sempre he rebut una resposta airflow: command not found. És lògic suposar que les dificultats van sorgir durant la instal·lació d'Apache Airflow i els fitxers necessaris simplement no estan disponibles. Després d'assegurar-me que tot estava on hauria d'estar, vaig decidir provar d'especificar el camí complet al fitxer de flux d'aire (hauria de tenir aquest aspecte: Полный/путь/до/файла/airflow initdb). Però el miracle no es va produir i la resposta va ser la mateixa airflow: command not found. Vaig provar d'utilitzar un camí relatiu al fitxer (./.local/bin/airflow initdb), que va provocar un nou error ModuleNotFoundError: No module named json'que es pot superar amb l'actualització de la biblioteca Eina (en el meu cas fins a la versió 0.15.4):

pip install werkzeug==0.15.4

Podeu llegir més sobre werkzeug aquí.

Després d'aquesta manipulació senzilla, l'ordre ./.local/bin/airflow initdb es va completar amb èxit.

6. Inici del servidor Airflow

Aquest no és el final de les dificultats per accedir al flux d'aire. Executant una comanda ./.local/bin/airflow webserver -p 8080 va donar lloc a un error No such file or directory. Probablement, un usuari d'Ubuntu amb experiència immediatament intentaria superar aquestes dificultats per accedir al fitxer mitjançant l'ordre export PATH=$PATH:~/.local/bin/ (és a dir, afegint /.local/bin/ al camí de cerca executable PATH existent), però aquesta publicació està pensada per a aquells que treballen principalment amb Windows i potser no pensen que aquesta solució és òbvia.

Després de la manipulació descrita anteriorment, l'ordre ./.local/bin/airflow webserver -p 8080 es va completar amb èxit.

7. URL: localhost: 8080 /

Si tot va anar bé en les etapes anteriors, aleshores esteu preparat per conquerir cims analítics.

Espero que l'experiència descrita anteriorment en la instal·lació d'Apache Airflow a Windows 10 sigui útil per als usuaris novells i accelerarà la seva entrada a l'univers de les eines d'anàlisi modernes.

La propera vegada m'agradaria continuar amb el tema i parlar de l'experiència d'utilitzar Apache Airflow en l'àmbit de l'anàlisi del comportament dels usuaris d'aplicacions mòbils.

Font: www.habr.com

Afegeix comentari