Preâmbulo: por vontade do destino, do mundo da ciência acadêmica (medicina) me encontrei no mundo da tecnologia da informação, onde tenho que utilizar meus conhecimentos sobre a metodologia de construção de um experimento e estratégias de análise de dados experimentais, porém, aplicar uma pilha de tecnologia que é nova para mim. No processo de domínio destas tecnologias, encontro uma série de dificuldades que, felizmente, já foram superadas. Talvez este post seja útil para quem também está começando a trabalhar com projetos Apache.
Então, direto ao ponto. Inspirado
Como as instruções usuais para executar o Airflow não parecem se aplicar a um ambiente Windows, use isto para resolver este problema
Vamos seguir os passos das instruções (spoiler - deu tudo certo no 5º passo):
1. Instalando o subsistema Windows para Linux para posterior instalação de distribuições Linux
Este é o menor dos problemas, como dizem:
Painel de controle → Programas → Programas e recursos → Ativar ou desativar recursos do Windows → Subsistema Windows para Linux
2. Instale a distribuição Linux de sua preferência
Eu usei o aplicativo
3. Instalação e atualização do pip
sudo apt-get install software-properties-common
sudo apt-add-repository universe
sudo apt-get update
sudo apt-get install python-pip
4. Instalando o Apache Airflow
export SLUGIFY_USES_TEXT_UNIDECODE=yes
pip install apache-airflow
5. Inicialização do banco de dados
E foi aí que começaram minhas pequenas dificuldades. As instruções exigem que você insira o comando airflow initdb
e passe para a próxima etapa. No entanto, sempre recebi uma resposta airflow: command not found
. É lógico supor que surgiram dificuldades durante a instalação do Apache Airflow e os arquivos necessários simplesmente não estão disponíveis. Depois de me certificar de que tudo estava onde deveria estar, decidi tentar especificar o caminho completo para o arquivo do airflow (deveria ficar assim: Полный/путь/до/файла/airflow initdb
). Mas o milagre não aconteceu e a resposta foi a mesma airflow: command not found
. Tentei usar um caminho relativo para o arquivo (./.local/bin/airflow initdb
), o que levou a um novo erro ModuleNotFoundError: No module named json'
que pode ser superado atualizando a biblioteca ferramenta (no meu caso até a versão 0.15.4):
pip install werkzeug==0.15.4
Você pode ler mais sobre werkzeug
Após esta simples manipulação o comando ./.local/bin/airflow initdb
foi concluído com sucesso.
6. Iniciando o servidor Airflow
Este não é o fim das dificuldades de acesso ao fluxo de ar. Executando um comando ./.local/bin/airflow webserver -p 8080
resultou em um erro No such file or directory
. Provavelmente, um usuário experiente do Ubuntu tentaria imediatamente superar tais dificuldades de acesso ao arquivo usando o comando export PATH=$PATH:~/.local/bin/
(ou seja, adicionando /.local/bin/ ao caminho de pesquisa executável PATH existente), mas esta postagem é destinada àqueles que trabalham principalmente com Windows e podem não achar que essa solução é óbvia.
Após a manipulação descrita acima, o comando ./.local/bin/airflow webserver -p 8080
foi concluído com sucesso.
7.URL:
Se tudo correu bem nas etapas anteriores, você está pronto para conquistar picos analíticos.
Espero que a experiência descrita acima na instalação do Apache Airflow no Windows 10 seja útil para usuários novatos e acelere sua entrada no universo das ferramentas analíticas modernas.
Da próxima vez, gostaria de continuar o tópico e falar sobre a experiência de uso do Apache Airflow na área de análise do comportamento do usuário em aplicativos móveis.
Fonte: habr.com