Em 2013 ano IBS, que então parecia estar criando Divisão de Dados, me pediu para fazer tal braindump (baseado exclusivamente na experiência de interação com clientes corporativos de petróleo e gás) sobre a área problemática de Big Data e Dados em geral. Então me deparei com isso 7 anos depois e achei engraçado. Algumas coisas são óbvias. Alguns acabaram por não ser inteiramente verdade, mas... 7 anos se passaram.
Escrevi em inglês e agora pensei em traduzi-lo para o russo. E se algo ainda for relevante agora? (Vou traduzir os boletins, mas deixo as placas em inglês por preguiça. Verde é bom, vermelho é perigoso, azul é sonho).
Vou formalizar os comentários mínimos de “hoje” italianopara que seja claro e distinguível.
Então, DADOS! Dados para nós...
A Divisão de Dados é a Divisão de Sangue, porque os dados podem ser comparados, por exemplo, ao sangue que corre nas veias e artérias de uma empresa. No entanto, embora o sangue seja o mesmo, os organismos são diferentes e, portanto, produtização muito difícil, mas representa também uma oportunidade de desenvolvimento.
Há pessoas para quem os dados saltam aos olhos - estas são Nós.
E tem gente que, infelizmente, não vê os dados à queima-roupa. Isso, novamente, infelizmente, é nosso Clientes!
Assim, princípios de negócios...
- Vender o negócioE não IT (que todos os especialistas em TI me perdoem imediatamente) porque estamos resolvendo os problemas do mundo e, bem, mais dinheiro.
- Todos os problemas de negócios estão concentrados em setores verticais temáticos da indústria e exigirão especializações.
- Tentativas de provar valor de "dados" ou, ainda mais difícil, o valor da “gestão de dados” para uma empresa é o sofrimento e a dor eternos. Basicamente, é como chegar em uma pessoa que está se sentindo bem e dizer: “Cara, vamos tratar o seu sangue agora e, cara, é caro!”
- Meu “sonho molhado” é vender “extração de dados” e “análises” dentro do modelo SaaS pequena e média empresaque escalaram 123 serviços em nuvem com interfaces interessantes: gerenciamento de projetos, helpdesk, contabilidade, CRM, folha de pagamento, relatórios de horas, marketing,... você escolhe, e se enterraram nos dados. Youcalc e fatores de sucesso (provavelmente não existem mais) Isso é bom!
- Procure pessoas que gostam de mexer “crocante” com dados. Eles são raros e estranhos (como as folhas de chá), mas essenciais para os negócios. Um poeta, por exemplo, pode ser muito bom em correlação.
- Engenheiros necessário! Precisava transformar problemas que os Crunchers extraíam dos dados em soluções. E o sucesso ou o fracasso da decisão depende inteiramente deles.
- Desenvolvimento opensource projetos é de grande valor e permite “montar” soluções complexas praticamente do zero.
- Mas... não devemos esquecer que o Hadoop é uma biblioteca, e o Lucene também é uma biblioteca, e a distância entre biblioteca e produto industrial muito!
- As soluções construídas terão que ser significativamente adaptadas, porque modularidade и integrabilidade - pontos chave.
- Ágil (me perdoe senhor) é uma técnica chave na interação com o cliente e na verificação hipóteses, dos quais haverá muitos.
- É especialmente possível e necessário terceirizar toda a codificação e UI. Todas as análises e especificações de negócios Processo interno preciso sair dentro e considerada como uma competência essencial.
- Os tomadores de decisões empresariais devem estar constantemente “informados” sobre a necessidade de trabalhar adequadamente com dados e constantemente buscando novas maneiras de analisá-los. A combinação das competências técnicas e empresariais dos nossos colaboradores ajudará a elevar o status de toda a organização como um todo.
- Internet – existe uma fonte inesgotável de inspiração (não havia muitos gatos naquela época) em relação às abordagens à gestão de dados empresariais, embora os objetivos e o âmbito variem significativamente.
Postulados tecnológicos...
- Existe um enorme potencial de desenvolvimento em simplificação como os dados são mostrados às pessoas. Você pode chamar isso de palavra “iPhonização”.
- Apesar de os fornecedores de BI afirmarem que são diretamente leve análises aos usuários finais, (e eles certamente estão caminhando nessa direção) - o avanço ainda não ocorreu. As pessoas simplesmente não entendem bem multidimensional dados.
- Uma interface de usuário que representa dados mais ou menos complexos e pouco estruturados em lapidado forma - também apresenta uma infinidade de problemas. Conclusão: quanto mais plano, melhor.
- Uma plataforma construída com base na extração automática de dados de fontes (que nem sempre são projetadas para tal extração) depende significativamente das fontes, da estabilidade dos conectores e da infraestrutura. A plataforma (mensageiro) sempre será responsabilizada pela falha na entrega de resultados. Confiança – capital deste tipo de plataformas. Capital difícil de ganhar e fácil de perder.
- Do ponto de vista empresarial, não há diferença entre análise de Big Data e Apenas dados. Muitas vezes, por trás de números tão simples como 2x2 estão milhões de dólares em oportunidades. Um bom exemplo são os dados sobre o fim da vida útil dos elementos de infraestrutura na plataforma norueguesa. Quando são todas as datas dos limites futuros. os reparos de todos os equipamentos foram colocados em um eixo e eles descobriram que em N anos a prateleira do Armagedom estava chegando - um homem muito rico levantou-se de sua cadeira e saiu apressadamente da sala com as palavras: “Desculpe, eu não tenho muito tempo, preciso preparar a frota...”
- O Excel, e essencialmente uma apresentação tabular de dados clara e concisa, tem um enorme poder e um grande futuro. Eu acredito em mesas bonitas (e ainda) e é isso!
- O arco principal de toda essa “análise” é automação de decisão. Existem as maiores oportunidades, mas também os maiores riscos, é por isso que as oportunidades são ricas, é por isso que existem riscos, é por isso que existem oportunidades, é por isso que são caramelos... 🙂 Gestão de perfuração de poços, por exemplo...
- Se a “integrabilidade” for uma característica fundamental, então os dados deveriam de facto ser apresentados como um serviço. DESCANSO regras, mas não devemos esquecer a otimização desempenho, que agora é frequentemente sacrificado pela integrabilidade à medida que o poder da computação continua a crescer.
- Dados mestre - é isso que precisa ser localizado, extraído e padronizado antes de abordar qualquer problema de negócios. Os dados mestre são pequenos, mas os problemas com eles são grandes! Como dizem os irmãos da semântica, 50% de todos os problemas do mundo são porque as pessoas chamam as mesmas coisas por nomes diferentes, e os outros 50% são porque chamam coisas diferentes pelo mesmo nome.
- Qualquer encapsulamento no nível do armazenamento, limita a abertura da solução e leva à ficção do SILO. É bom se você for um grande fornecedor, caso contrário, é mais ou menos. (Aqui estamos falando, claro, não do nível de bloco e nem do AWS S3, que já tinha 6 anos, mas de arquivos).
- Modelagem relacional os dados não são mais nossos amigos. RDF e valor-chave – legal! Vimos transformações mágicas de bancos de dados relacionais com modelos de 2000 tabelas em 15 tabelas, e nenhum dos usuários perdeu nada.
- A Internet funciona porque existe URL como um método unificado de endereçamento. A importância do URL ou melhor URI para os recursos de informação empresarial é difícil superestimar.
- Mineração de texto e PNL são populares. Na internet. Mas mesmo no sector empresarial, é possível alcançar grande sucesso extraindo dados estruturados de dados empresariais não estruturados.
- Sinergia entre dados estruturados e informações extraídas de dados não estruturados, ou seja, arquivos – Klondike analítico.
- Ao extrair dados, não se esqueça dos direitos e direitos autorais.
- A empresa de extração de dados deve formar umadepartamento de hackers, no bom sentido da palavra. Inspirado na difícil batalha contra os sistemas de proteção de bots rastreadores das Páginas Amarelas.
- Antes de trabalhar com dados, é necessário "ver" na sua totalidade. É difícil de explicar. Formas tabulares vêm à mente. Para alguns, representações gráficas, mas qualquer gráfico já é uma interpretação. De uma forma ou de outra... “vê”!
- Repetindo a questão da “confiança” do usuário no frontend. Confiança em conectores/processos de geração de dados, confiança em dados, confiança nas decisões tomadas.
Fonte: habr.com