Preámbulo: por voluntad del destino, del mundo de la ciencia académica (medicina) me encontré en el mundo de la tecnología de la información, donde tengo que utilizar mis conocimientos sobre la metodología de construcción de un experimento y estrategias para analizar datos experimentales, sin embargo, aplicar una pila de tecnología que es nueva para mí. En el proceso de dominio de estas tecnologías me encuentro con una serie de dificultades que, afortunadamente, hasta ahora han sido superadas. Quizás esta publicación sea útil para aquellos que también están comenzando a trabajar con proyectos de Apache.
Entonces, al punto. Inspirado
Dado que las instrucciones habituales para ejecutar Airflow no parecen aplicarse en un entorno Windows, utilice esto para resolver este problema.
Repasemos los pasos de las instrucciones (spoiler: todo salió bien en el quinto paso):
1. Instalación del Subsistema de Windows para Linux para posterior instalación de distribuciones de Linux
Este es el menor de los problemas, como dicen:
Panel de control → Programas → Programas y características → Activar o desactivar las funciones de Windows → Subsistema de Windows para Linux
2. Instale la distribución de Linux de su elección.
utilicé la aplicación
3. Instalación y actualización de pip
sudo apt-get install software-properties-common
sudo apt-add-repository universe
sudo apt-get update
sudo apt-get install python-pip
4. Instalación de Apache Airflow
export SLUGIFY_USES_TEXT_UNIDECODE=yes
pip install apache-airflow
5. Inicialización de la base de datos
Y aquí comenzaron mis pequeñas dificultades. Las instrucciones requieren que ingrese el comando airflow initdb
y pasar al siguiente paso. Sin embargo, siempre recibí una respuesta. airflow: command not found
. Es lógico suponer que surgieron dificultades durante la instalación de Apache Airflow y que los archivos necesarios simplemente no están disponibles. Después de asegurarme de que todo estaba donde debería estar, decidí intentar especificar la ruta completa al archivo de flujo de aire (debería verse así: Полный/путь/до/файла/airflow initdb
). Pero el milagro no ocurrió y la respuesta fue la misma. airflow: command not found
. Intenté usar una ruta relativa al archivo (./.local/bin/airflow initdb
), lo que provocó un nuevo error ModuleNotFoundError: No module named json'
que se puede superar actualizando la biblioteca herramienta (en mi caso hasta la versión 0.15.4):
pip install werkzeug==0.15.4
Puedes leer más sobre werkzeug
Después de esta simple manipulación el comando ./.local/bin/airflow initdb
se completó con éxito.
6. Lanzamiento del servidor Airflow
Este no es el final de las dificultades para acceder al flujo de aire. Ejecutando un comando ./.local/bin/airflow webserver -p 8080
resultó en un error No such file or directory
. Probablemente, un usuario experimentado de Ubuntu intentaría inmediatamente superar tales dificultades para acceder al archivo usando el comando export PATH=$PATH:~/.local/bin/
(es decir, agregar /.local/bin/ a la ruta de búsqueda del ejecutable PATH existente), pero esta publicación está destinada a aquellos que trabajan principalmente con Windows y pueden no pensar que esta solución sea obvia.
Después de la manipulación descrita anteriormente, el comando ./.local/bin/airflow webserver -p 8080
se completó con éxito.
URL de 7:
Si todo salió bien en las etapas anteriores, entonces estás listo para conquistar picos analíticos.
Espero que la experiencia descrita anteriormente al instalar Apache Airflow en Windows 10 sea útil para los usuarios novatos y acelere su entrada al universo de las herramientas analíticas modernas.
La próxima vez me gustaría continuar con el tema y hablar sobre la experiencia de usar Apache Airflow en el campo del análisis del comportamiento del usuario de aplicaciones móviles.
Fuente: habr.com