Experiência de instalação do Apache Airflow no Windows 10

Preâmbulo: por vontade do destino, do mundo da ciência acadêmica (medicina) me encontrei no mundo da tecnologia da informação, onde tenho que utilizar meus conhecimentos sobre a metodologia de construção de um experimento e estratégias de análise de dados experimentais, porém, aplicar uma pilha de tecnologia que é nova para mim. No processo de domínio destas tecnologias, encontro uma série de dificuldades que, felizmente, já foram superadas. Talvez este post seja útil para quem também está começando a trabalhar com projetos Apache.

Então, direto ao ponto. Inspirado artigo Yuri Emelyanov sobre as capacidades do Apache Airflow na área de automação de procedimentos analíticos, queria começar a usar o conjunto de bibliotecas proposto em meu trabalho. Aqueles que ainda não estão familiarizados com o Apache Airflow podem estar interessados ​​em uma breve visão geral artigo no site da Biblioteca Nacional. NE Bauman.

Como as instruções usuais para executar o Airflow não parecem se aplicar a um ambiente Windows, use isto para resolver este problema janela de encaixe no meu caso seria redundante, comecei a procurar outras soluções. Felizmente para mim, não fui o primeiro neste caminho, então consegui encontrar um maravilhoso instrução em vídeo Como instalar o Apache Airflow no Windows 10 sem usar Docker. Mas, como muitas vezes acontece, ao seguir os passos recomendados surgem dificuldades e, creio, não só para mim. Portanto, gostaria de falar sobre minha experiência de instalação do Apache Airflow, talvez isso economize um pouco de tempo para alguém.

Vamos seguir os passos das instruções (spoiler - deu tudo certo no 5º passo):

1. Instalando o subsistema Windows para Linux para posterior instalação de distribuições Linux

Este é o menor dos problemas, como dizem:

Painel de controle → Programas → Programas e recursos → Ativar ou desativar recursos do Windows → Subsistema Windows para Linux

2. Instale a distribuição Linux de sua preferência

Eu usei o aplicativo Ubuntu.

3. Instalação e atualização do pip

sudo apt-get install software-properties-common
sudo apt-add-repository universe
sudo apt-get update
sudo apt-get install python-pip

4. Instalando o Apache Airflow

export SLUGIFY_USES_TEXT_UNIDECODE=yes
pip install apache-airflow

5. Inicialização do banco de dados

E foi aí que começaram minhas pequenas dificuldades. As instruções exigem que você insira o comando airflow initdb e passe para a próxima etapa. No entanto, sempre recebi uma resposta airflow: command not found. É lógico supor que surgiram dificuldades durante a instalação do Apache Airflow e os arquivos necessários simplesmente não estão disponíveis. Depois de me certificar de que tudo estava onde deveria estar, decidi tentar especificar o caminho completo para o arquivo do airflow (deveria ficar assim: Полный/путь/до/файла/airflow initdb). Mas o milagre não aconteceu e a resposta foi a mesma airflow: command not found. Tentei usar um caminho relativo para o arquivo (./.local/bin/airflow initdb), o que levou a um novo erro ModuleNotFoundError: No module named json'que pode ser superado atualizando a biblioteca ferramenta (no meu caso até a versão 0.15.4):

pip install werkzeug==0.15.4

Você pode ler mais sobre werkzeug aqui.

Após esta simples manipulação o comando ./.local/bin/airflow initdb foi concluído com sucesso.

6. Iniciando o servidor Airflow

Este não é o fim das dificuldades de acesso ao fluxo de ar. Executando um comando ./.local/bin/airflow webserver -p 8080 resultou em um erro No such file or directory. Provavelmente, um usuário experiente do Ubuntu tentaria imediatamente superar tais dificuldades de acesso ao arquivo usando o comando export PATH=$PATH:~/.local/bin/ (ou seja, adicionando /.local/bin/ ao caminho de pesquisa executável PATH existente), mas esta postagem é destinada àqueles que trabalham principalmente com Windows e podem não achar que essa solução é óbvia.

Após a manipulação descrita acima, o comando ./.local/bin/airflow webserver -p 8080 foi concluído com sucesso.

7.URL: localhost: 8080 /

Se tudo correu bem nas etapas anteriores, você está pronto para conquistar picos analíticos.

Espero que a experiência descrita acima na instalação do Apache Airflow no Windows 10 seja útil para usuários novatos e acelere sua entrada no universo das ferramentas analíticas modernas.

Da próxima vez, gostaria de continuar o tópico e falar sobre a experiência de uso do Apache Airflow na área de análise do comportamento do usuário em aplicativos móveis.

Fonte: habr.com

Adicionar um comentário