Experiencia instalando Apache Airflow en Windows 10

Preámbulo: por voluntad del destino, del mundo de la ciencia académica (medicina) me encontré en el mundo de la tecnología de la información, donde tengo que utilizar mis conocimientos sobre la metodología de construcción de un experimento y estrategias para analizar datos experimentales, sin embargo, aplicar una pila de tecnología que es nueva para mí. En el proceso de dominio de estas tecnologías me encuentro con una serie de dificultades que, afortunadamente, hasta ahora han sido superadas. Quizás esta publicación sea útil para aquellos que también están comenzando a trabajar con proyectos de Apache.

Entonces, al punto. Inspirado artículo Yuri Emelyanov sobre las capacidades de Apache Airflow en el campo de la automatización de procedimientos analíticos, quería comenzar a utilizar el conjunto de bibliotecas propuesto en mi trabajo. Aquellos que aún no están familiarizados con Apache Airflow pueden estar interesados ​​en una breve descripción general. artículo en el sitio web de la Biblioteca Nacional. N. E. Bauman.

Dado que las instrucciones habituales para ejecutar Airflow no parecen aplicarse en un entorno Windows, utilice esto para resolver este problema. estibador en mi caso sería redundante, comencé a buscar otras soluciones. Afortunadamente para mí, no fui el primero en este camino, así que logré encontrar una maravillosa instrucciones en vídeo Cómo instalar Apache Airflow en Windows 10 sin usar Docker. Pero, como suele suceder, a la hora de seguir los pasos recomendados surgen dificultades, y creo que no sólo para mí. Por lo tanto, me gustaría hablar sobre mi experiencia instalando Apache Airflow, tal vez le ahorre a alguien un poco de tiempo.

Repasemos los pasos de las instrucciones (spoiler: todo salió bien en el quinto paso):

1. Instalación del Subsistema de Windows para Linux para posterior instalación de distribuciones de Linux

Este es el menor de los problemas, como dicen:

Panel de control → Programas → Programas y características → Activar o desactivar las funciones de Windows → Subsistema de Windows para Linux

2. Instale la distribución de Linux de su elección.

utilicé la aplicación Ubuntu.

3. Instalación y actualización de pip

sudo apt-get install software-properties-common
sudo apt-add-repository universe
sudo apt-get update
sudo apt-get install python-pip

4. Instalación de Apache Airflow

export SLUGIFY_USES_TEXT_UNIDECODE=yes
pip install apache-airflow

5. Inicialización de la base de datos

Y aquí comenzaron mis pequeñas dificultades. Las instrucciones requieren que ingrese el comando airflow initdb y pasar al siguiente paso. Sin embargo, siempre recibí una respuesta. airflow: command not found. Es lógico suponer que surgieron dificultades durante la instalación de Apache Airflow y que los archivos necesarios simplemente no están disponibles. Después de asegurarme de que todo estaba donde debería estar, decidí intentar especificar la ruta completa al archivo de flujo de aire (debería verse así: Полный/путь/до/файла/airflow initdb). Pero el milagro no ocurrió y la respuesta fue la misma. airflow: command not found. Intenté usar una ruta relativa al archivo (./.local/bin/airflow initdb), lo que provocó un nuevo error ModuleNotFoundError: No module named json'que se puede superar actualizando la biblioteca herramienta (en mi caso hasta la versión 0.15.4):

pip install werkzeug==0.15.4

Puedes leer más sobre werkzeug aquí.

Después de esta simple manipulación el comando ./.local/bin/airflow initdb se completó con éxito.

6. Lanzamiento del servidor Airflow

Este no es el final de las dificultades para acceder al flujo de aire. Ejecutando un comando ./.local/bin/airflow webserver -p 8080 resultó en un error No such file or directory. Probablemente, un usuario experimentado de Ubuntu intentaría inmediatamente superar tales dificultades para acceder al archivo usando el comando export PATH=$PATH:~/.local/bin/ (es decir, agregar /.local/bin/ a la ruta de búsqueda del ejecutable PATH existente), pero esta publicación está destinada a aquellos que trabajan principalmente con Windows y pueden no pensar que esta solución sea obvia.

Después de la manipulación descrita anteriormente, el comando ./.local/bin/airflow webserver -p 8080 se completó con éxito.

URL de 7: localhost: 8080 /

Si todo salió bien en las etapas anteriores, entonces estás listo para conquistar picos analíticos.

Espero que la experiencia descrita anteriormente al instalar Apache Airflow en Windows 10 sea útil para los usuarios novatos y acelere su entrada al universo de las herramientas analíticas modernas.

La próxima vez me gustaría continuar con el tema y hablar sobre la experiencia de usar Apache Airflow en el campo del análisis del comportamiento del usuario de aplicaciones móviles.

Fuente: habr.com

Añadir un comentario