Преамбула: волею судьбы из мира академической науки (медицины) я попала в мир информационных технологий, где мне приходится использовать свои знания о методологии построения эксперимента и стратегиях анализа экспериментальных данных, однако, применять новый для меня стек технологий. В процессе освоения этих технологий я сталкиваюсь с рядом трудностей, которые пока, к счастью, удается преодолевать. Возможно, этот пост будет полезен тем, кто также только начинает работу с проектами Apache.
Итак, к сути. Вдохновившись
Поскольку обычные инструкции для запуска Airflow, судя по всему, не применяются в среде Windows, а использовать для решения данной задачи
Пройдемся по шагам инструкции (спойлер — 5-го шага все шло прекрасно):
1. Установка подсистемы Windows для Linux для последующей установки дистрибутивов Linux
Это меньшая из проблем, как говорится:
Панель управления → Программы → Программы и компоненты → Включение и отключение компонентов Windows → Подсистема Windows для Linux
2. Установка дистрибутива Linux по выбору
Я воспользовалась приложением
3. Установка и апдейт pip
sudo apt-get install software-properties-common
sudo apt-add-repository universe
sudo apt-get update
sudo apt-get install python-pip
4. Установка Apache Airflow
export SLUGIFY_USES_TEXT_UNIDECODE=yes
pip install apache-airflow
5. Инициализация базы данных
И вот именно здесь начались мои маленькие трудности. Инструкция предписывает ввести команду airflow initdb
и перейти к следующему шагу. Однако я неизменно получала ответ airflow: command not found
. Логично предположить, что возникли трудности на этапе установки Apache Airflow и просто нет нужных файлов. Удостоверившись, что все там где и должно быть, я решила попробовать указать полный путь до файла airflow (выглядеть должно так: Полный/путь/до/файла/airflow initdb
). Но чуда не произошло и ответ был тем же airflow: command not found
. Я попробовала использовать относительный путь к файлу (./.local/bin/airflow initdb
), что привело к появлению новой ошибки ModuleNotFoundError: No module named json'
, которую можно преодолеть, обновив библиотеку werkzeug (в моем случае до версии 0.15.4):
pip install werkzeug==0.15.4
Подробнее о werkzeug можно почитать
После этой нехитрой манипуляции команда ./.local/bin/airflow initdb
была выполнена успешно.
6. Запуск сервера Airflow
На этом сложности с обращением к airflow еще не завершились. Запуск команды ./.local/bin/airflow webserver -p 8080
привел к ошибке No such file or directory
. Вероятно, опытный пользователь Ubuntu сразу бы попробовал преодолеть такие трудности с обращением к файлу, применив команду export PATH=$PATH:~/.local/bin/
(то есть, добавив к существующему пути поиска исполняемых файлов, определяемому переменной PATH каталог /.local/bin/), но этот пост предназначен для тех, кто преимущественно работает с Windows и, возможно, не считает такое решение очевидным.
После описанной выше манипуляции команда ./.local/bin/airflow webserver -p 8080
была успешно выполнена.
7. URL:
Если все прошло удачно на предыдущих этапах, то вы готовы покорять аналитические вершины.
Надеюсь, описанный выше опыт установки Apache Airflow на Windows 10 будет полезен начинающим пользователям и ускорит их вхождение во вселенную современных инструментов аналитики.
В следующий раз хотелось бы продолжить тему и рассказать об опыте использования Apache Airflow в сфере анализа поведения пользователей мобильных приложений.
Источник: habr.com